欧宝体育app官方ios

ob体育在线登录为了纪念黑色历史月，我想在机器学习，特别是计算机愿景中写下进步和错误，以及拥有大型和多样化的数据集的必要性

莫妮卡P.

1天前·7分钟阅读

**图片由** **Oladimeji Odunsi.** 在 **Unsplash**

我本月开始向教授作为一位辅助教授，这对我来说非常令人兴奋。Since I am teaching Data Science 101, one of the takeaways I want my students to take away in their early journey of Data Science is the responsibility of making ethical models and how even big companies also don’t get it right, and how important it is to be part of the working class that strives to get it right.

让我们来谈谈迟到的事S.T进入解决谷歌等技术巨头使用的许多机器学习算法之一，这些巨头具有多年的缺乏培训数据的多样性。最近我通过广告听到了谷歌在智能手机上推出了最包容的相机。据说谷歌的像素6据说已经拍了数千张图片，使他们的训练数据更加多样化真正的语气技术。比较结果如下所示《华尔街日报》的文章，确实显示了谷歌的Pixel 6看起来最脆，而且未经编辑的方式很好;它不像这些照片中的三星Galaxy S21那样使皮肤变黑。

在培训数据方面，他们的产品营销经理在Pixel 6发布时指出，他们的培训数据现在更加多样化了25倍。我不知道他们是否将其与原始训练数据进行了比较。假设是这样，因为他们提到他们拍了数千张照片，而不是数万张照片。假设他们增加了9000张照片。这可能意味着，最初他们对有色人种的训练数据集可能有数百个。他们是否认为黑皮肤是一种二项式分类，他们只需要几百张黑人的照片而不考虑肤色的不同?当美女，蕾哈娜的化妆品品牌推出了，推出了40种色调的化妆品，最近又增加了10种，这在化妆品行业引起了轰动和颠覆(这是一种好的方式)。自从人们意识到人们的肤色可以以大范围分布的形式出现以来，人们在她的化妆品品牌上看到了更多的东西。现在人们的化妆需求终于得到了满足，很难想象他们会回到不那么包容的时代。

在我们思考我们需要支持阴影的分布时需要多种数据样本之前，让我们对计算机愿景的工作方式进行高级别的理解。与我们类似，计算机视觉算法可以检测模式，除了我们对计算机找到模式的方式的方式，除了我们方法的方式。计算机在像素上执行数学操作。像素是最小的单元，它们一起表示图像。像素以0到255的值的形式保持信息分别表示为黑点为白色的值。

计算机视觉的一些领域是:

边缘检测检测图像的边缘。这篇文章演示了索贝尔公式背后的数学原理来演示这些边，下面的视频也是如此。

对象检测将边界框应用于感兴趣的对象
对象分割将属于每个类的所有像素进行分类
图像分类将分类标签应用于整个图像。例如，此图像中有一只猫吗？

下面的视频展示了目标检测与目标分割和图像分类之间的区别。

当你开始学习数据科学时，他们展示的最流行的图像分类数据集之一是MNIST数据集这是一个手写数字的大数据集。引用的链接还展示了自1998年以来不同的算法及其测试错误率。正如你在那个链接的表格中看到的，直到我们进入多层神经网络，不同的方法，如卷积，和更大的模型，测试错误率才会下降。这些类是手写的数字0到9。训练数据集为60,000个样本，测试数据集为10,000个样本。每个数字平均有6000个样本用于训练。

尽管有人会说，技术和计算每年都在进步，但仅仅是更多的训练数据解决一切问题是不够的。然而，这是一个良好的开端，与实际技术的进步相比，并不是一个沉重的负担。

回到这个问题，我们需要多少个数据样本来开始使用人脸作为算法的输入?深度神经网络(dnn)已经证明，它们的错误率低*(如果使用正确)。挑战在于它需要非常大的数据集。Saleh Shahinfar, Paul Meek, Greg Falzon写道:“我需要多少张图片?”虽然不是关于人的，但这是一项研究。了解每个类的样本大小如何影响深度学习模型的性能指标，以便在自主野生动物监测中进行平衡设计”。在他们的研究中，你会看到他们的错误率随着数据集的增加而下降。

它觉得它拍摄了一个大型技术巨头，可以访问最聪明的人和资源超过一分钟，以解决其机器学习产品的偏见。在2015年谷歌的技术是将黑人的图像分类为大猩猩这2018年“修复”是将大猩猩的标签完全作为预测删除。该技术和数据规模不是唯一的挑战，还有道德镜头。我们需要问自己这个问题，“这弊大于好吗？”。像帕累托原则一样，80％的结果来自20％的努力。现在领导科技巨头对如何使用该技术的影响最大。臭名昭着的事件亚马逊的Rekognition算法错误地将大约30名国会议员与人脸照片联系在一起在2018年5月引发了关注。在接下来的几年里，从旧金山开始，该市禁止使用面部识别软件，这将限制执法部门利用它进行监控。其他城市也纷纷效仿:圣地亚哥、波特兰、波士顿、马萨诸塞州，最近的一次是2021年7月的弗吉尼亚州。

考虑到这些科技巨头面部识别软件的差距的最佳研究的最佳研究之一，尤其是颜色的女性是Joy Buloamwini的MIT论文陈述，性别色调．她再次指出的问题是缺乏训练数据。她发现，当将IBM、微软和亚马逊的分类器应用于一个更平衡、更多样化的人物图像数据集时，她基于来自世界各地三个非洲国家和三个欧洲国家的1270名政客构建了这个数据集。在她的论文中，她列举了一些例子，展示了来自试点议会基准(PPB)数据集的图片样本，其中44%为女性，47%为深色皮肤。相比之下，她在论文中发现，用于训练这家科技巨头的性别分类器的数据集不成比例地多为浅肤色，而最小的深肤色女性群体约占数据集的4%。

当她将性别分类器应用于PPB数据集时，她发现最好的分类器在深色女性中出错的几率比浅色女性高32倍。

只有我们如何通过查看各种分类分数来执行模型选择，我们也必须在多维空间中查看它们，特别是在与人口统计学合作时。在她的论文中，您将找到Buloamwini博士的建议记分卡的一个例子，以促进未来的面部识别数据集的多样性。

面部识别在执法部门之外也有应用，比如苹果的Face ID等生物信息学应用。还有Rana el Kaliouby博士我很喜欢在她的新书中读到她的作品，女孩解码．在她的时间，在麻省理工学院开创了爱情空间。最初，她的想法是通过情绪智力来增加技术，以帮助被诊断出患有自闭症的人们导航社交互动。自闭症的人难以在社会环境中占有情感，并于2006年，Rana以及麻省理工学院媒体实验室创建了智能眼镜，帮助佩戴者对自闭症谱的识别他们与之交互的人的情感。在她的书中，她谈到了作为妻子，母亲，计算机科学家，她的公司，研究和文化的杂耍生活。在一个事件中，她以最大的能力处理它，她进入了一辆车祸，她写道，如果她的车在驾驶前可以确定她的情绪状态，那么可能阻止了发生崩溃，那么这将如何有用，

所以，我留给读者的问题是:除了增加训练数据外，我们如何确保在我们生活中使用的算法是合乎道德和负责任的?我们是否应该利用这项技术，即使这项技术是可能的?使用它或不使用它意味着什么?

欧宝体育app官方ios

ob体育在线登录为了纪念黑色历史月，我想在机器学习，特别是计算机愿景中写下进步和错误，以及拥有大型和多样化的数据集的必要性

莫妮卡P.

更多内容请参见《走向欧宝全站登录数据科学》

更多来自媒体

周日简报#66

如何找到Y和相应时间的第一个十二个局部最大（峰值）值......

在“PDF EVOS”中下载：EMS车辆操作员安全

Vlookup和Array公式正在改变游戏

周日简报#80

通过建模：Covid-19流行期间的分析和决策

Dataops指南：数据管理的新时代

与Capital IQ进行时尚管理的行业分析