有多少集群?

图1 :不同簇数的聚类,k=4、6、8。模拟数据有6个簇。作者形象。
图2 :基于相同的数据集,定义良好的聚类(左)和定义糟糕的聚类(右)的例子。箭头表示数据点与其集群中心之间的距离。作者形象。
图3 :集群最优(左),次优(中),甚至更糟(右)的场景。这些星星表示星团的中心。作者形象。
图4 :图1中所示数据集的不同k的惯量图。作者形象。
//初始化平方和
out_sum_squares = 0.0;
/*
列的前半部分属于原点的特征。
列的后半部分属于终端的特性。
每组列的顺序必须相同。
*/
int col_count = getColumnCount();
Int no_dimensions = col_count / 2;
//循环特性列
for (int i = 0;我< no_dimensions;我+ +){
/*
检查特征i是否来自原点和
来自终端的特性I(即I +no_dimensions)
没有丢失,并且有相似的列名
*/
if(!isMissing(i) && isType(i, tDouble))
& & & & ! isMissing (i + no_dimensions)
的类型(i + no_dimensions tDouble) & &
getColumnName (i + no_dimensions) .contains (getColumnName (i))) {
//计算距离的平方并将其相加
out_sum_squares + =数学。战俘(getCell(我tDouble)
getCell (i + no_dimensions tDouble), 2);

图5 :图1所示数据集的不同k的剪影系数图。作者形象。
图6 :均匀分布的随机数据聚类为k=4(左)、6(中)、15(右)聚类。作者形象。
图7 :在k的范围内,原始数据(图1)相对于随机数据的惯性如何减小。
图8 :基于B=100次迭代的差距统计及其标准偏差的图表。满足条件的最优k=6由红线表示。作者形象。
图9 差距统计图的例子。根据模拟结果,最佳k值可能不一致。作者形象。
图10 : 8 × 8像素下采样的手写数字数据的例子。作者形象。
图11 :用t-SNE (t-分布随机邻居嵌入)将数字数据投影到二维空间中的散点图。作者形象。
图12 :由数字数据生成的肘形图(左)和轮廓系数图(右)。作者形象。
图13 :由数字数据根据B=100次迭代生成的差距统计图。红线表示了k=12的最佳值。作者形象。
图14 : k - means在k=9和k=12的数字数据中找到的聚类,用t-SNE投影到2D空间。作者形象。

KNIME的数据科学家,教人们如何做数据科学。

Baidu
map