欧宝体育app官方ios

ob体育在线登录为了纪念黑人历史月,我想写关于进步和机器学习中的错误,尤其是计算机视觉,和拥有一个庞大而多样化的数据集的必要性

图片由 Oladimeji Odunsi Unsplash

这个月我开始教作为兼职教授,对我来说是非常令人兴奋的。自101年我教学数据科学的一个外卖我希望我的学生在他们的早期数据科学之旅的责任伦理模型,即使是大公司也不如何做好它,以及如何重要的是工人阶级的一部分,努力使它正确。

让我们谈谈后期年代t的进步在解决许多机器学习算法之一利用科技巨头像谷歌这样的多年训练数据的缺乏多样性。最近我听说通过广告,谷歌已经推出了智能手机上最包容的相机。据说谷歌的像素6拍了数以千计的照片,他们的训练数据25 x更加多样化真正的语气技术。所示的比较《华尔街日报》的文章,确实表明,谷歌的像素6看起来最为明确和未经审查的好方法;它不减轻深色皮肤像三星Galaxy S21在这些照片。

训练数据而言,他们的产品营销经理像素6发射指出,他们的训练数据现在是25 x更加多样化。我不知道他们正在比较原来的训练数据。我们假设这是自从他们提到了成千上万的图片,不是数以万计。假设他们加入了9000张照片。这可能意味着最初的训练数据集的颜色可能是数百人。他们认为黑皮肤是二项分类,他们只是需要数百名黑人的照片而不考虑各种各样的阴影?当芬蒂美,蕾哈娜的化妆品牌,推出40的化妆和最近增加了10个造成buzz和中断(在一个很好的方式)化妆品行业。人们感到更多的从她的化妆品牌,因为他们认识到,人的皮肤颜色可以采取一个大的形式分布。很难想象现在人们的化妆品需求终于得到解决,他们将回到更包容。

在我们思考我们需要多少样品的数据支持分布的阴影,让我们高层的理解计算机视觉是如何工作的。类似于我们,计算机视觉算法可以检测模式,除了我们的方法与计算机发现模式的方式是非常不同的。电脑上执行数学操作像素。像素的最小单位是代表一个图像。像素值的形式保存信息的范围从0到255分别表示黑到白。

图片由瓦迪姆BogulovUnsplash

计算机视觉领域有:

  • 边缘检测检测到的边缘图像。这篇文章演示了索贝尔背后的数学公式证明边缘和下面的视频。
  • 对象检测边界盒适用于感兴趣的对象
  • 对象分割分类属于每个类的所有像素
  • 图像分类的分类标签适用于整个图像。例如,有一只猫在这幅图片吗?

下面的视频展示了不同对象检测与对象分割和图像分类。

最流行的一种图像分类数据集他们展示当你开始学习科学数据MNIST数据集这是一个大型数据集的手写数字。引用链接也展示了不同的算法和自1998年以来他们的测试错误率。如你所见表中的链接,直到我们进入多层神经网络,不同的方法,如卷积和较大的模型测试错误率下降。类是手写数字0到9的数字。60000个样本训练数据集和测试数据集是10000。这是一个6000年平均每个数字培训的例子。

虽然有人会说,技术和计算每年有先进的,这不仅仅是足够的,更多的训练数据解决一切问题。然而,它是一个良好的开端,而不是重型而发展的实际技术。

旋转问题,多少的样本数据我们需要开始使用人脸作为算法输入?深层神经网络(款)已经证明他们有低错误率*(在正确使用时)。面临的挑战是它需要一个非常大的数据集。萨利赫Shahinfar,保罗温顺、格雷格•Falzon写道:“我需要多少图片?“虽然不是人,这是一个研究“理解每个类样本大小如何影响深度学习模型性能指标的平衡设计自主野生动物监测”。在他们的研究中,你会看到他们的错误率下降随着数据集的大小增加。

它感觉就像带着一个大科技巨头最聪明的人,资源的访问超过一分钟解决偏见在机器学习产品。在2015年,当谷歌的技术分类图像的黑人是大猩猩2018年“修复”被移除的标签大猩猩完全预测。技术和数据的大小并不是唯一的挑战,也有伦理镜头。我们需要问自己这个问题,“这是弊大于利吗?”。像帕累托原则,80%的结果来自于20%的努力。现在领先的科技巨头最大的影响将如何使用这项技术。臭名昭著的事件亚马逊的Rekognition算法错误地将大约30国会成员的头部2018年5月,引发关注。在接下来的几年里,从旧金山这个城市禁止使用面部识别软件将限制执法从利用监测。其他城市效仿在以下方面;圣地亚哥,波特兰,波士顿,马萨诸塞州,2021年7月最新的维吉尼亚州。

最好的一个例子的研究,放大这些科技巨头的差距的谈话面部识别软件尤其是女性的颜色是欢乐Buloamwini的麻省理工学院博士论文声明,性别阴影。又一次她指出的问题是缺乏训练数据。她发现,当应用IBM的,微软,亚马逊对一个更加平衡和多样化的数据集的分类器的图像的人,她构造基于1270人的来自世界各地的政界人士3非洲国家和欧洲国家。她在论文包括例子展示示例图像的飞行员议会基准含量数据集44%的女性和47%的黑皮肤。与她在论文发现,数据集用于火车科技巨头的性别分类器是不成比例的主要浅肤色和最小的群深色皮肤的女性占大约4%的数据集。

当她性别分类器应用于磅数据集她发现最佳分类器的错误率是32 x更可能是错误的在深色的女性比轻同行。

多么我们数据科学家执行模型选择通过观察各种分类的分数,我们也必须看到他们在多维空间中特别是在处理人口。在她的论文你会找到一个例子Buloamwini博士提出的记分卡,促进多样性在未来面部识别的数据集。

面部识别以外的用例执法等生物信息学等苹果的脸ID。还有的工作Rana el Kaliouby博士他的工作我喜欢阅读在她最新出版的书,女孩解码。麻省理工学院期间开创了空间情感的人工智能。起初,她的想法是增强技术与情商帮助人们被诊断为自闭症社会互动导航。患有自闭症的人很难区分情绪在社会环境和2006年,Rana和麻省理工学院媒体实验室创建的智能眼镜,帮助自闭症使用者识别人的情绪与之交互。在她的书中,她谈到了杂耍的生活作为一个妻子,母亲,计算机科学家,她的公司,研究,和文化。在一个事件,她在最大能力处理它,她发生了车祸,她写了它如何会有助于她的车可能会决定她的情绪状态在开车前,可能阻止事故的发生,

所以我离开你读者的问题是:我们怎样才能确保除了增加训练数据,算法是利用在我们的生活中创造了道德和负责任的吗?我们甚至应该利用这种技术即使技术是可能的吗?的含义是什么使用还是不使用它吗?

数据科学家,2021年5月数据科学的女士。前代码的女性导演。www.monicapuerto.com

Baidu
map