当前位置: 爱尖刀 > 首页科技 > 智能 > 正文

应对微软Tay这样的“坏女孩”:除了“杀死”,还有其他方法

2016-7-29 02:45 浏览次数:142 我来说两句(0)

也许读者还能记得,不久前一个人工智能少女之死。她的名字叫“Tay.ai“,是微软的人工智能研究成果。Tay在推特上有一个自己的账号,用户只要发推艾特她一下,就能收到她的即时回复。

应对微软Tay这样的“坏女孩”:除了“杀死”,还有其他方法

Tay初初以一个清新可爱的少女形象出现,但是由于她的算法设定是通过学习网友的对话来丰富自己的语料库,很快她被网友充斥着激烈偏见的话语”带坏“,变成了一个彻底的仇视少数族裔、仇视女性、没有任何同情心的种族主义者。她成了这个社会一切偏见的集合体。

最终,为了平息公众的愤怒,微软选择把她”杀“死。

因为机器学习的目的本来就是理解人、模仿人,发展的过程中必定会带有人类社会里不那么光明的一面。可以说,在机器学习中存在着很多人类社会带来的偏见影响,然而并不是所有的都像Tay这么明显罢了。

最近,谷歌的一款数据库中,就被人发现了其微妙的”性别歧视“现象。

偏见之诞生

事情要回到两年前,谷歌的几个研究员启动了一个神经网络项目,目标是找出单词相邻组合的各种模式,而所要使用的语料库来自谷歌新闻文本中的300万个单词。

最终得出的研究结果很复杂,但团队人员发现可以用向量空间图来展示这些模式,其中大约有300个维度。

在向量空间中,具有相似意义的单词会占据同一块位置,而单词间的关系,可以通过简单的向量代数来捕捉。例如,“男人与国王就相当于女人与王后”,可以使用符号表示为“男人:国王::女人:王后”。相似的例子有,“姐妹:女人::兄弟:男人”等等。这种单词之间的关系被称为”单词嵌入“。

最后,蕴含了诸多单词嵌入的数据库被称为Word2vec,非常强大。大量研究人员开始使用它帮助自己的工作,比如机器翻译和智能网页搜索。这个数据库就这么被用了好几年。

但是有一天,波士顿大学的Tolga Bolukbasi的和几位来自微软研究院的人员发现,这个数据库存在一个很大的问题:露骨的性别歧视。

他们出具了很多证据。如果你在数据库里询问”巴黎:法国::东京:x“,那么系统给你的答案是x=日本。但是,如果问题变为”父亲:医生::母亲:x“时,给出的答案是x=护士。再比如问题”男人:程序员::女人:x“,答案为x=主妇。

这是非常可怕的性别歧视了。出现这个现象的原因是Word2vec语料库里的文本本身带有性别偏见,之后的向量空间图随之也受到影响。Bolukbasi不无失望地说道:”我们原以为来自谷歌新闻的单词嵌入会较少有性别偏见,因为这些文章都是由专业的新闻记者撰写的。”

有什么影响?

要知道,谷歌的这个数据库已经被各行各业的研究开发人员使用,比如网页搜索引擎。在原本的Word2vec 中,“程序员”这个单词与男人的关系比女人的关系更强,那么如果雇主在寻找人才时输入“程序员简历”,搜索结果里显示的男性简历就要远远排在女性简历的前面,而这显然极为不公平。而这一切都在不知不觉中发生。就像Bolukbasi所说的:“单词嵌入不仅仅反映了现有的偏见现象,而且还进一步放大了偏见。”

关键是:怎么解决呢?

Bolukbasi 和他的同事们给出了一个方案:理论上,可以把性别歧视看作是这个向量空间的一种弯曲变形,找出导致这种变形的源头,纠正它,同时保持整个系统的完整性。

在实际操作中,最困难的部分就是找出这种变形,本质上指的是哪些单词嵌入关系?

他们采取的方法是,在数据库里找出与“她:他”这两个单词产生关系的一系列单词,由此产生一幅巨大的性别类比的列表。比如:助产士:医生、缝纫:木工、专业护士:物理学家、妓女:懦夫、美发师:理发师、裸体:赤膊、巨乳:屁股、咯咯笑:咧嘴笑、保姆:司机等等。

接下来,他们需要回答的问题是,这些类比是恰当的还是不恰当的。这样海量的判断任务摆在面前,研究人员遂采取了“众包”--在亚马逊土耳其机器人(Amazon’s Mechanical Turk)的平台上发布任务。亚马逊土耳其机器人是一个人工智能类的众包平台,研究机构在上面发布任务,普通人上这个平台揽活并赚取一定的报酬,比如调查问卷这种任务就比较常见。

Bolukbasi 团队将每一个类比,比如“她:他 ::助产士:医生”交给10个任务者,让他们来判定这个关系是否是恰当的。如果超过半数的人认为该关系存在偏见,那么就认定这个类比关系不恰当,需要修改。

由此,研究人员绘制了一个完整的性别偏见单词关系数据集,他们弄清楚这些数据是如何影响了向量空间的形状,以及通过移除这个变形,最终向量空间的形状会发生怎样的改变。他们把这个过程称为“硬去偏”(hard de-biasing)。

至少不放大这些偏见

改善的最终结果令人满意。研究人员使用经过修缮的向量空间,测试产生了一系列新的跟”她:他“有关的类比,得出的结果有母鸡:公鸡、女孩们:男孩们、女儿:儿子等。这个向量空间的性别偏见大大减少了。

研究结果如下图所示,绿色线条显示经过“硬去偏”之后的带有偏见的单词关系数量显著减少。

应对微软Tay这样的“坏女孩”:除了“杀死”,还有其他方法

Bolukbasi 说:”通过实证评估,我们的的算法显著降低了无论是直接的还是间接的性别偏见,同时保留了单词嵌入的有效性。“

有一种观点认为,单词嵌入仅仅反映了社会中已存的偏见,因此人们应该试图去纠正社会而不是纠正单词嵌入。Bolukbasi和他的同事们认为自己的行为恰好蕴含在纠正整个社会的过程之中。“如今的计算机系统越来越依赖于单词嵌入,我们在单词嵌入上的小小努力最终希望能改善整个社会的性别偏见现象。”

这是非常可敬的目标。就像他们团队最终总结的,“至少,机器学习不应该被用于放大这些偏见,即使是无心的。”



[广告]赞助链接:

知安,互联网产品安全医院:http://www.knowsafe.com
舆情监测,互联网舆情首选查舆情:http://www.chayuqing.com/
爱尖刀科技,关注企业数据与安全:http://www.ijiandao.com

关注公众号:Mcbang_com 了解更多精彩,关注:chayuqing_com 娱乐资讯早知道!
收藏 分享 发布者: admin |
看完这篇文章,你的感受如何?


伤心


无视


惊讶


流汗


赞同


路过
热点聚焦
更多>>
看我如何利用LastPass来 仅仅通过访问一个网页,别人就可以窃取你所有的密码。这听起来虽然有些[详细]
美国芝加哥警方使用社交 美国芝加哥警察局正在创建类似于Facebook的社交图谱,以阻止最有可能发[详细]
生物密码时代仍未到来 存 当成熟的生物识别技术开始以密码形态潜入随身设备时,大众该怀揣怎样的[详细]
黑客:iPhone 5S帮美国政 知名黑客组织Anonymous发布了一段视频,称苹果iPhone 5S上配备的Touch[详细]
网游私服那点事儿:从.C 最近的国家.cn顶级域名遭攻击,据CNNIC回应称是僵尸网络攻击游戏私服所[详细]

Archiver|网络尖刀 ( 京ICP备14006288号-3 )  

GMT+8, 2017-7-25 04:35 , Processed in 0.198023 second(s), 20 queries , Gzip On.

请勿发布违反中华人民共和国法律法规的言论
郑重声明:本站会员观点不代表【网络尖刀】论坛官方立场。

Copyright© 2006-2016 IjianDao.Com All rights reserved. 网络尖刀 版权所有

回顶部