免责声明:网站内容仅供个人学习记录,禁做商业用途,转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记 辽ICP备17017855号-2

Clustering algorithms

本篇博客是关于 徐晓伟老师 *的讲课(数据管理新技术)笔记Clustering. 主要包括K-means和DBCAN算法。 定义: Grouping objects into sub-groups (clusters) # 等于对数据进行归纳,比如100万数据分成若干组,看不同自己的情况 such that: similar objects form a cluster dissimilar objects belong to different clusterts typically: a similar...

继续阅读 »
分享到:

再战字符编码问题!

参考廖雪峰老师的教程: https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896 再战字符编码问题! 首先,需要明确: 1字节(byte) = 8比特(bit) 1k = 1024字节(byte) 编码的历史(按时间顺序): 【一家独大,别人家使用不了】ASCII[1个字节](计算机是鹰酱家发明的,ASCII是仅适用于英文字母、数字和一些符号,即只有127个字符被编码到计算机中) 【多家鼎立,各家用各家的冲突明显】处理中文至少需要...

继续阅读 »
分享到:

两样本t检验

两样本 t t 检验主要用来检验两个样本是否来源于均值相等的分布。 现分别从两组抽取数据 \(x_{11},..., x_{1n_1}, x_{21},..., x_{2n_2}\) ,假设他们是从 \(N(\mu_1, \sigma^2_1)\) 与 \(N(\mu_2, \sigma^2_2)\) 两个分布抽取的样本,并希望检验零假设 ,接着计算: \[t = \frac{\bar{x_2} - \bar{x_1}}{SEDM}\] 其中,SEDM(Standard Error of Differenc...

继续阅读 »
分享到:

seq2seq+attention+beamsearch构建闲聊对话

首先介绍大家熟悉的Seq2Seq模型。 接下来介绍Beam Search。预测的时候使用,训练的时候不使用。 引入Attention的初衷,越长的距离关系,LSTM的能力在下降。 核心代码如下:(注释的很清楚了) """ Sequence To Sequence模型 定义了模型编码器、解码器、优化器、训练、预测 """ import tensorflow as tf from tensorflow.contrib.rnn import LSTMCell, GRUCell, MultiRNNCell, LS...

继续阅读 »
分享到: