K-means聚类算法python实现

算法优缺点: 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 使用数据类型:数值型数据 算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的,相近的就会放到同一个类别中去。 1.首先我们需要选择一个k值,也就是我们希望把数据分成多少类,这里k值的选择对结果的影响很大,Ng的课说的选择方法有两种一种是elbow method,简单的说就是根据聚类的结果和k的函数关系判断k为多少的时候效果最好。另一种则是根据具体的需求确定,比如说进行衬衫尺寸的聚类你可能就...

Continue Reading »
分享到:

Hadoop安装配置 (分布式)

背景 本篇博客是接着上篇博客写的,若未查看上篇博客请先查看,配置伪分布式是配置分布式的基础。 网络配置 1、关闭master虚拟机,手动复制两台虚拟机(需保证伪分布式也配置成功,所有配置文件都配置好了),点击鼠标右键复制粘贴, 在这里另外两个虚拟机命名为slave1和slave2。下图是复制完成的状态。 2、更改主机名称:sudo vim /etc/hostname slave1这台虚拟机中写slave1;slave2这台虚拟机中写slave2; 3、配置域名和ip的对应关系:sudo vim /etc...

Continue Reading »
分享到: