有多少集群?

图1 :与不同数量的集群,集群k = 4, 6, 8。模拟数据与6集群。作者形象。
图2 :定义良好的集群的例子(左)和定义糟糕的集群(右)基于相同的数据集。箭头表示数据点之间的距离和集群中心。作者形象。
图3 :场景聚类最优(左),次优(中心),甚至更糟的是(右)。星星显示集群中心。作者形象。
图4 为不同的k:惯性的情节,在图1中显示的数据集。作者形象。
/ /初始化平方和
out_sum_squares = 0.0;
/ *
上半年列属于起源的特点。
列属于下半年的终点站。
组的列必须在相同的顺序。
* /
int col_count = getColumnCount ();
int no_dimensions = col_count / 2;
/ /遍历特性列
for (int i = 0;我< no_dimensions;我+ +){
/ *
如果我从原点的功能和检查
我从终点站(即的特性。,我+ no_dimensions)
不是失踪,有类似的列名
* /
如果(! isMissing(我)& &(我tDouble)的类型
& & & & ! isMissing (i + no_dimensions)
的类型(i + no_dimensions tDouble) & &
getColumnName (i + no_dimensions) .contains (getColumnName (i))) {
/ /计算平方距离和增加金额
out_sum_squares + =数学。战俘(getCell(我tDouble)
getCell (i + no_dimensions tDouble), 2);
}
}
图5 :不同轮廓系数k的情节,在图1中显示的数据集。作者形象。
图6 :均匀分布随机数据聚集到k = 4(左),6(中心),15(右)集群。作者形象。
图7 :的惯性减少原始数据(图1)和随机数据的一系列k。作者形象。
图8 :一块差距统计以及它们的标准差,基于B = 100次迭代。满足条件的最优k = 6日,由红线表示。作者形象。
图9 :差距统计图的例子。最优k可能不一致,根据仿真的结果。作者形象。
图10 :手写的数字数据的例子,down-sampled 8×8像素。作者形象。
图11 :散点图的数字数据投影到二维空间t-SNE (t-distributed随机邻居嵌入)。作者形象。
图12 :肘(左)和轮廓系数的情节(右)产生的数字数据。作者形象。
图13 统计图:差距产生的数字数据,基于B = 100次迭代。最优k = 12是红线所示。作者形象。
图14 :k - means集群中发现的数字数据与k = 9, k = 12,与t-SNE投影到二维空间。作者形象。

数据科学家KNIME,教人们如何做数据的科学。

Baidu
map