微软删除了世界上最大的公开人脸识别数据库MS Celeb

admin · 发表于 2019-6-12 11:36:12

作者 | 田晓旭编辑 | Vincent转载自“AI 前线”（ID：ai-front），仅供学习！导读：据外媒报道，微软从互联网上悄然删除了 MS Celeb 数据库，该数据库包含了超过 1000 万张、约为 10 万人的人脸图像，主要被用于人脸识别。

我们查看了 MS Celeb 官网，发现该网站已经变成了 404，但是微软关于该数据库的相关介绍页面还存在，根据 hyper.ai 显示，MS Celeb 上次更新是在 3 周前。
为什么要删除 MS Celeb 数据库？
MS Celeb 是世界上最大的公开人脸识别数据库，其中包含的人脸图像基本都来自公众人物。但是据英国《金融时报》报道，数据库中采集的很多图像的主人并没有授权这一行为，MS Celeb 数据库是通过“知识共享”（Creative Commons ）许可证来抓取和搜索图像的。另外，虽然 MS Celeb 方称数据库中照片均来自于名人，但是柏林研究员 Adam Harvey 认为这里“名人”的定义相当广泛，该数据库中还包含了很多记者、艺术家、音乐家、活动家、决策者、作家和学者的照片。《金融时报》联系了存储在该数据库中的照片的当事人，他们表示并不知道自己的照片已经被收录，其中科技类作家 Adam Greenfield 表示：“我绝不是一个公众人士，没有办法放弃自己的隐私权。”由于数据库所使用的照片，没有征得照片当事人的同意，所以微软根据《知识共享许可协议》将他们的面部数据信息从搜索引擎和视频中删除。微软方面表示：“当初建立该网站的目的是为了学术需求。后来该网站交由不再与微软合作的员工运营，而现在该网站已被移除。”
MS Celeb 是什么？
MS Celeb 数据集是由全世界的 100 万位名人的图像组成的数据集，主要用于身份鉴定研究。MS Celeb 的训练数据集会从这 100 万名人中，根据受欢迎程度挑选排名在前 10 万的名人，然后利用公共搜索引擎为每个名人搜索大约 100 张图片，最终产生 1000 万张网络图像。MS Celeb 数据集是微软于 2006 年发布的，主要发布人包括 Yandong Guo、Lei Zhang、Yuxiao Hu 、Xiaodong He、 Jianfeng Gao。如果想更加深入的了解 MS Celeb 数据库，可以查看该论文。
MS Celeb 真的会被彻底删除吗？
虽然 MS-Celeb 数据库现在已经被微软移除，但是在被移除之前，已经被广泛应用于面部识别程序。据了解，目前有多个商业组织使用了 MS Celeb 数据库，包括 IBM、松下电气、阿里巴巴、辉达、日立、商汤科技、旷视科技等等。此次微软移除 MS Celeb 数据库，是否意味着它再也不能被使用了？其实并不是这样，据了解之前下载过 MS Celeb 的研究人员和公司仍可正常使用，而且用于处理数据库的工具也可被正常访问。柏林研究员 Adam Harvey 表示：“虽然 msceleb.org 网站关闭了，但该数据集仍然存在于 GitHub 上的存储库中，这是无数研究人员的硬盘驱动器，并且可能会继续用于世界各地的研究项目。”
隐私安全 VS 人脸识别
除了微软移除 MS Celeb 数据库，还有另外两个学术单位也删除了相关的数据库，分别是由杜克大学研究人员建造的 Duke MTMC 监控数据库和斯坦福大学的 Brainwash 数据库。Duke MTMC 数据集是一个大规模标记的多目标多摄像机行人跟踪数据集。它提供了一个由 8 个同步摄像机记录的新型大型高清视频数据集，具有 7000 多个单摄像机轨迹和超过 2700 多个独立人物，Duke MTMC-reID 是 Duke MTMC 数据集的行人重识别子集，并且提供了人工标注的 bounding box。Brainwash 数据库使用的信息来自旧金山下海区的 Brainwash 咖啡馆的顾客，他们通过直播相机拍摄登门的消费者。斯坦福大学发言人表示，在其中一位研究者提出要求后，已经删除了数据库，该校致力保护学校和社区的个人隐私。事实上，关于隐私安全和人脸识别的讨论早已有之，人脸识别的反对方更注重隐私安全，他们认为随着 AI 技术的发展，人脸识别的应用已经超过了实际用途，甚至变成了实时监控公民隐私的危险工具。2019 年 5 月，美国旧金山立法机构通过了禁止官方使用人脸识别技术的新法令，旧金山成为了全球首个官方被禁止使用人脸识别技术的城市。而支持方则认为大家对人脸识别技术过度担心了，我们应该监管人脸识别，而不是完全禁止。根据国际权威调研机构 Gen Market Insights 发布了《全球人脸识别设备市场研究报告 2018》显示：“2017 年，全球人脸识别设备市场价值为 10.7 亿美元，到 2025 年底将达到 71.7 亿美元，在 2018 年至 2025 年期间将以 26.8% 的速度增长。”所以，在人脸识别发展的道路上，我们要更加重视数据的共享和开放，相关研究单位、企业更要主动积极推动行业标准规范，维护采集、存储的数据安全。
进一步讨论：美国人为什么不待见人脸识别技术？雷锋网按：2019 年 5 月，旧金山市对人脸识别技术发出了禁令，禁止该技术在政府机关和执法机关中使用，从而成为全球首个对人脸识别技术发出禁令的城市。不过，美国社会对人脸识别技术的反对不止于旧金山。近期，加州奥克兰市正在考虑出台与旧金山类似的法律，同时，马萨诸塞州也正考虑在该州中止人脸识别软件，直到这项技术有所提高。那么问题来了：美国越来越多的城市在禁止或暂停这项技术的使用，究竟是为何？有缺陷的人脸识别技术客观上来说，美国的人脸识别技术一直走在科技前沿，并且在商用层面早有动作。亚马逊早在 2016 年就推出了人脸识别软件 Rekognition，此外，类似的产品还有谷歌云 Vision API、IBM Watson Visual Recognition 和微软的 Face API。尽管如此，目前的人脸识别技术还不能够有百分百的准确性。2018 年，纽约时报英文网站发表一篇文章就指出，如今非常热门的 AI 应用人脸识别，针对不同种族的准确率差异巨大。其中，针对黑人女性的错误率高达 21%-35%，而针对白人男性的错误率则低于 1%——这在美国可以说是非常政治不正确的。另外一个值得一提的乌龙事件是：巨头公司亚马逊2016 年推出图像识别 AI 系统 “Rekognition” 曾将 28 名美国国会议员识别成了罪犯，让美国社会一片哗然，也对人脸识别技术充满了质疑。中国科学院自动化研究所的张晓波博士曾表示，照明、姿势、装饰等都会对机器人脸识别产生影响，对于非合作情况下的人脸图像采集，遮挡问题非常严重。特别是在监控环境中，被监控对象可能佩戴眼镜，帽子等配件，使得捕获的人脸图像可能不完整，影响后续的特征提取和识别，甚至导致人脸检测算法无效。虽然人脸识别算法的大小随着人脸数据库大小的增加而减小，但如何在大规模应用环境中维持或提高人脸识别算法的识别率也是一个非常重要的问题。你的脸到底属于谁？
在安全性方面，人脸识别技术也在美国面临着广泛的质疑。比如说，由于人脸识别的信息存储仍然基于计算机可识别的语言，即数字或特定代码。而随着这些数据价值的提高，面临黑客攻击的风险也会越来越高。也就是说，人面识别技术背后的支撑是数据，如果这些隐私数据被窃取，你的脸可能不只属于自己，可能属于任何人。同时，正如前面提到的，人脸识别技术对于不同种族的人有不同的准确率，无论是论文作者的研究，还是厂商的实验都明确发现女性深色人种识别误差率更高。种族歧视作为美国社会中的一个非常敏感的话题，如果对人脸识别技术的相关法律还未能够完善，那么，人脸识别技术依然会处于争议之中。不过，更大的争议在于，美国社会群体对于 “被监控” 本身的反感和忧虑。此前，亚马逊以及其他很多科技公司也与美国警方保持合作，将面部识别技术应用于视频监控和警察穿戴的相机镜头。包括俄勒冈州在内的众多美国州立政府已经成为 Rekognition 的用户。亚马逊的人脸识别软件 Rekognition 能够实时地辨别、分析和跟踪。它能够在几秒钟将它收集的信息和数据库里成千上万个图像进行比较。执法机关已经将这个技术应用于寻找失踪人口和识别恐怖袭击中的嫌疑人中。然而，美国公民自由联盟（American Civil Liberties Union，ACLU）曾“上书”政府：亚马逊应该停止向美国政府提供强大且“危险”的人脸识别系统 Rekognition。此联盟“上书”后不久，有将近 20 家亚马逊的股东机构向 Jeff Bezos （雷锋网按，亚马逊首席执行官）发出信件，对亚马逊 Rekognition 被应用于执法部门所带来的问题和影响进行担忧。这些股东在信中写到：亚马逊股东担心这样的政府监视设施技术，不仅可能对全国客户和其他利益相关者构成隐私威胁，而且可能提高我们公司面临的实质性风险，为我们公司的股价带来负面影响，并为股东增加金融风险。股东们还担心，Rekognition 可能违反女性、有色人种、移民以及其他边缘化群体的民权，这些人特别容易成为警方关注的目标。不仅亚马逊股东认为 Rekognition 会对隐私造成侵犯，美国民众也有类似的看法。将人脸识别技术应用到前端视频监控摄像机上，可能会打破隐私及实用性之间的平衡。假设美国警方有若干台这样的安防摄像机，同时拥有可疑人员的“黑名单”照片库，那么其他任何人如果与这些可疑人员有一些相像，一旦进入警察的安防摄像机的镜头之内，都有可能受到警务人员的盘问。而大多数美国人不希望生活在那样的世界里。不仅亚马逊的 Rekognition 陷于争议之中，美国的海关和边境保护计划同样因为应用人脸识别技术而颇受争议。这项计划通过其云端面部生物识别系统对旅客进行匹配。这种信息匹配服务旨在取代人工检票，将旅途中需要出示纸质证件的流程改为自动识别。这个面部识别系统旨在快捷。并且，美国海关和边境保护局（U.S. Customs and Border Protection，以下简称 CBP）认为，在对比护照照片和人脸时，面部识别要比人类更加准确。在 40 天的时间里，该系统已在华盛顿杜勒斯机场协助发现了三名冒名顶替者。但这项技术可以在你不知情的情况下使用，面部识别系统收集的不可变的数据，也就是面部信息。这引起了人们的担忧。如果某人的信息一直被保存，那么，系统便可以一直追查这个人的行踪。而且，CBP 未向公众采纳意见，就已在机场实行这一技术，突破了美国法律的界限。面对争议，CBP 强调，这个项目的存在不是为了监视，它的实施也符合法律规定。美国公民可以选择退出该计划，他们的照片不会被长期保留。不仅如此，CBP 还发了声明，证明有许多法律允许它收集生物特征信息。但隐私法专家指出，虽然 CBP 列举的法律适用于非公民，但它们都没有明确提到涉及公民的情况。而且，乔治城大学隐私与技术法律中心 2017 年发表的一份报告称：在过去 14 年中可以明显的看出，美国公民在该计划的相关法律中一直处于缺席状态。CBP 尚且面临质疑，更不必说是其他美国政府部门了。在雷锋网看来，一个社会群体对于技术的接纳和融入，并不一定都是一帆风顺的；尤其是对于美国这样注重政治正确和隐私至上的国家来说，人脸识别技术的应用更是面临越来越严重的尴尬局面。可以想见的是，人脸识别技术在美国也许会面临越来越多的反对声浪，但这究竟是一件好事与否，尚未可知。

		自动登录	找回密码
密码			立即注册

微软删除了世界上最大的公开人脸识别数据库MS Celeb

浏览过的版块