MIT下架偏见性数据集，Bengio兄弟发起多引少数群体的论文：BLM运动连续

呆板之心报道

参与：杜伟、小舟、张倩

继 Yann LeCun 为存在数据偏见的算法辩护被骂退出推特之后，BLM 运动继续在学界伸张。MIT 宣布永世下架包罗种族和性别歧视标签图像的 Tiny Images 数据集，并致歉。别的，谷歌研究科学家 Samy Bengio 针对学界中的「名人效应」提出自己的发起，呼吁「有意识地引用较低存眷度学者的论文」，从而引发网友热议。

大张旗鼓的「Black Lives Matter」运动已经连续了一个多月，虽然已有和缓迹象，但整体运动开始往各领域伸张，包括学术界。

在活动刚开始的第十几天，全美学界曾掀起过一场停摆 24 小时的运动，arXiv、Nature、Science 全部停息更新，以重新思索黑人群体在学界的职位。

虽然活动仅举行了一天，但「思索」远未竣事。最近，一位非裔女科学家把各人重新拉回了这一话题。

事件的因由是 DeepMind 6 月 29 号官宣的一门天生反抗网络（GAN）课程。课程的内容比力基础，主要先容 GAN 的原理、优化、改进以及一些变体。

乍看之下，这门课好像没什么问题。但是，一位名叫 Adji Bousso Dieng 的研究者质问道：「既然你们要开 GAN 的课，为什么我在 DeepMind 提出的 PresGAN 没有被包罗在内？是由于这篇论文的一作（我）是黑人女性吗？」「我已经厌倦了这种轻视、轻易抹掉我的孝敬的举动。」

这位 Adji Bousso Dieng 是什么来头？

Dieng 来自非洲塞内加尔，是哥伦比亚大学统计学系的一名博士研究生。她的主要研究偏向是将概率图形建模和深度学习联合起来，为结构化的高维数据设计模子。她的研究事情得到了谷歌博士奖学金的支持。

读博期间，Dieng 连续几年在 ICLR、NeurIPS 等顶会参与组织 workshop，还在微软、Facebook AI 、DeepMind 做过实习生。上面提到的 PresGAN 便是她在 DeepMind 实习期间做的。

根据 Dieng 提供的链接，我们找到了这篇论文。在论文中，Dieng 提出了一种 GAN 变体 PresGAN，主要改进的地方是在麋集网络的输出中添加噪声并对熵正则化反抗丧失举行优化。添加的噪声对预测性对数似然的易处置惩罚近似举行渲染，并实现训练流程的稳定。实验结果表明，PresGAN 可以减轻模式瓦解并天生高感知质量的样本。别的，PresGAN 还可以缩小传统 GAN 和变分自编码器在预测性对数似然方面的性能差距。

论文链接：https://arxiv.org/pdf/1910.04302.pdf

虽然宣称的效果还不错，但遗憾的是，这篇论文在 Google Scholar 上的被引量只有「5 次」。

有人认为，这就是一篇平平无奇的论文，评估结果也很弱，纵然在 CIFAR-10 上也比 SOTA 差许多。

而且，这只是一篇挂在 arXiv 上的论文，还没有颠末偕行评审。「多数人不会倾向于引用一篇未经偕行评审的论文。」

总之，各人认为，这篇论文之以是被引量低，并不是由于种族问题，而是论文自己不敷硬。

但也有人在看过论文后表示，这是一篇不错的论文，可能真的被社区低估了。

论文的质量究竟如何，我们需要仔细研读才能得出结论。但有一点可以肯定，搬出种族歧视大旗似乎并不是解决学术问题的合理要领。

「我认为你应该用科学的方式来证实自己的观点，写一篇博客来告诉各人为什么你的论文应该被引用。」

这个话题引起了谷歌研究科学家、Yoshua Bengio 的兄弟 Samy Bengio 的注意。他认为，要从根本上改善弱势群体在学界的职位，应该从改变引用习惯做起。

Samy Bengio：发起各人多引用少数群体的论文

Samy Bengio 在自己的 Facebook 主页发帖表达了自己的看法。

坚持科学理性的学术态度虽然不易，但很有须要，这是提升呆板学习社区质量和多样性的必由之路。我们各人每一小步的正确举动都将累积成社区久远发展的一大步。Adji Dieng 这件事令我萌生了一种想法：我们全部人在引用相互的文献时，可以有意识地选择那些存眷度较低的作者的论文，而不是选择名人作者的论文；引用那些天天受体系性问题之害的作者，而不是那些已经受益颇多的作者。我们都清晰论文引用在呆板学习领域至关紧张，我的这个想法实行起来简朴有用。各人以为呢？有其他好的发起也请分享。

对此，有人在 reddit 上发帖提问：学术引用真的已经只看作者，而不重论文现实内容了吗？

对于 Samy Bengio 博客中提出的「多引用存眷度较低的作者的论文」，网友也纷纷表达了自己的看法。

下面这位网友表示，ta 完全同意引用存眷度较低学者的论文，但绝不应该由于种族或者名气等外部缘故原由而做出不理性客观的引用，要以论文相干性为引用基准。

而对于「学术引用已经基于作者，而非论文现实内容」的提问，下面这位网友表示，这似乎就是我们经常在做的事情。每篇论文都以「计算机视觉已经乐成地应用于 xx 使命」开头，而且像完成使命般枚举出与论文主题相干性甚小却由名人撰写的论文。

但也有人表示，虽然 ta 也认为不应该基于作者来引用论文，而且同意支持少数群体论文的观点。但 Samy Bengio 的发起是否正确仍待商讨。

盲目的学术崇敬肯定倒霉于新研究、新观点和新技能的推广，也倒霉于构建一个康健理性的社区。但如果然的根据 Samy Bengio 的发起而有意识地多引用存眷度较低的作者的论文，这是否又会走入另一个极度呢？

MIT 删除 Tiny Images 数据集

不止学者陆续发声表达自己的观点，学术机构也在行动。

近日，为了营造康健的学术气氛，阻挡并停止种族歧视等各种偏见，MIT 也采取了相应的行动：将存在种族歧视和性别偏见内容的 Tiny Images 数据集永世移除。

Tiny Images 数据集中包罗大量冒犯性标签的图像。

该数据集创建于 2006 年，删除它的缘故原由是这个有八万万张图像的数据集中含有大量的带有种族歧视等偏见的内容。好比，该数据集中有如许的照片：黑人和猴子的照片被贴上 Nigger 标签；穿着比基尼的妇女被贴上妓女的标签等，将毫无关系的图像内容和一些侮辱性词汇牵涉在一起。更糟糕的是，那些使用该数据集训练的 AI 模子也会带有如许的有害偏见。

Tiny Images 数据集中带有 Nigger 标签的图像。

这些图像数据是基于 WordNet 分类词库从搜索引擎自动网络的。WordNet 具有强盛的关联性，会根据单词的意义将差别的词组成相应的集合，因而带有一定的偏向性。那么在搜索引擎上搜索图像时，得到的图片也相应地具有强烈的偏见性。

别的，数据集的范围不仅非常大，而且这些图像的辨别率只有 32x32 像素，也从未存储过原始的高辨别率版本，以至于人们难以用肉眼辨认它们的内容。纵然人工查抄也无法包管可以或许完全清除这些有冒犯性的图像。

这些因素都使得 MIT 不得不删除了 Tiny Images 数据集，目前该数据集已经下线而且永远不会再上线。

MIT 也对删除 Tiny Images 数据集给出了官方声明：

在声明中，MIT 表示已经注意到 Tiny Images 数据集包罗一些侮辱性词汇以及冒犯性的图像，并高度存眷这件事，同时向受到影响的人致歉。因此决定正式打消 Tiny Images 数据集。别的，MIT 还要求社区以后都不再使用它，而且删除已下载的该数据集的任何副本。

末了，MIT 表示：「含有偏见和冒犯性的图像以及带有侮辱性的词汇，会迫使社区疏远紧张的组成部门——人才，而人才正是我们想方想法吸纳的。别的，该数据集还会导致使用它训练的 AI 体系也包罗有害偏见，此类有偏见的图像也有损计算机视觉社区积极构建的包容文化，这些都与我们积极维护的价值观南辕北辙。」

参考链接：

https://www.theregister.com/2020/07/01/mit_dataset_removed/

https://www.reddit.com/r/MachineLearning/comments/hjlsy8/d_samy_bengios_post/

https://groups.csail.mit.edu/vision/TinyImages/

7月11日09:00-12:00，呆板之心联合百度在WAIC 2020云端峰会上组织「开发者日百度公然课」，为宽大开发者提供 3 小时极致学习时机，从 NLP、CV 到零门槛 AI 开发平台 EasyDL，助力开发者掌握人工智能开发技能。扫描图中二维码，加呆板之心小助手微信邀您入群。