主成分分析(PCA)视力为零的数学解释

主成分分析(PCA)是一个不可或缺的工具,可视化和数据科学降维,但通常是埋在复杂的数学。很困难,至少可以说,充实我的大脑,为什么,很难欣赏美丽的全谱。

主成分分析是什么?

主成分分析(PCA)是一种技术,将高维数据转换成低维度空间,同时保持尽可能多的信息。

原始三维数据集。红色,蓝色,绿色箭头的方向是第一,第二,第三主成分分别。作者形象。
散点图后从三维到二维主成分分析减少。作者形象。

主成分分析是如何工作的呢?

这是一个两步的过程。我们不能写一本书总结如果我们没有阅读或理解这本书的内容。

理解数据的主成分分析方法

人类理解的意思故事书通过使用富有表现力的语言。不幸的是,PCA不讲英语。它必须在我们的数据中发现意义通过其首选语言,数学。

  • 我们可以在数学上量化嵌入的信息量的数据?
方差的公式。
我们的朋友的高度从内存。作者形象。
三个相同的轮廓的朋友我们需要确定基于他们的身高差异。图像中7089643Pixabay、编辑与作者许可。
另一组我们的朋友的高度,我们记得。作者形象。
三个similarly-tall朋友的轮廓,我们需要识别。图像中7089643Pixabay、编辑与作者许可。
同一组的朋友和他们各自的身高和体重。作者形象。

总结数据与主成分分析

就我个人而言,重量差异如此之小(a.k.。一个小方差),它不帮我区分我们的朋友。我仍然不得不主要依靠高度让我猜测。

虚线代表身高和体重的方差。作者形象。
所有的特性都标准化,以相同的比例公平的比较。作者形象。
虚线显示最大方差的方向。作者形象。
(红色和绿色的箭头是原始数据的轴。作者形象。| (正确的)轴的方向旋转,成为新的x轴和y轴。作者形象。
(身高和体重)的方差在原始数据是相似的。作者形象。| (正确的PCA变换后),所有的方差PC1轴所示。作者形象。
所有变量都是标准化,以相同的比例公平的比较。作者形象。
一个例子的一块小石子三维数据集。作者形象。

电脑离他而去

因为我们没有选择的所有主要组件,我们不可避免地失去一些信息。但我们还没有完全描述我们正在失去什么。让我们深入研究的一个新玩具的例子。

点是分散的,但我们仍然可以看到一些斜线正相关。作者形象。
()虚线是第一和第二主成分的方向。作者形象。| (正确的)PCA旋转数据因此给PC1最大方差,PC2紧随其后。作者形象。
()虚线是第一和第二主成分的方向。作者形象。| (正确的)所有的点现在坐在虚线因为我们删除第二主成分。作者形象。
所有的红线在第二主成分值,他们已被移除。作者形象。
两两之间的欧几里得距离的比较前两个点((后),正确的)从2 - 1维维数减少。作者形象。
(前两两之间的欧几里得距离这两点(后),正确的)降维仍相当一致。作者形象。

实现PCA在Python中

有更多的PCA超出了本文的前提。真正欣赏美丽的PCA的唯一方法是自己经验。因此,我想在这里分享一些代码片段任何人想弄脏手。完整的代码可以被评估在这里与谷歌Colab。

我们的玩具例子的前5行数据集。作者形象。
我们的玩具3 d图表的数据。作者形象。
线路图叠加在一个酒吧阴谋显示方差的比例为每一个电脑。作者形象。
每个电脑都是由多个变量的组合。作者形象。
()原始数据。作者形象。| (正确的)相同的数据但简化为二维主成分分析。作者形象。

最后的评论

PCA是一个数学上美丽的概念,我希望我能够传达一个随意的语气那样就不会觉得不知所措。对于那些急于考虑细节,我附上了一些有趣的讨论/下面的参考资料,供细阅。

数据科学家Carsome

Baidu
map