脑洞 | 像Sheldon一样对“讽刺语言”分辨无能？别怕，MIT最新算法帮你助攻

数据汪

大数据文摘作品，转载要求见文末

作者 | Will Knight

编译 | Clare、廖远舒、李钥

"Was that Sarcasm?" （刚刚那句话是在讽刺我吗？）

生活大爆炸中，谢耳朵对“讽刺类语言”的分辨无能有没有也让你印象深刻！MIT的研究人员近期的新研究可能会让Sheldon类的GEEK欢呼：一套比多数人类更可以检测讽刺语境和潜在情感的算法。

当然这套算法不是为了Sheldon这类社交恐慌的人研发的，它的存在是为了在社交网络上更好地打击种族歧视、辱骂和骚扰。

就像随时在twitter上举起的一支“sarcasm sign”。

对讽刺语言的了解可以帮助人工智能有效打击种族歧视、辱骂和骚扰。

翻看推特你会发现很多讽刺的评论－更不用说那些被误读的讽刺了。

所幸的是， MIT的研究人员研发了一套比多数人类更可以检测讽刺语境和潜在情感的算法。

检测社交中发文的情绪对有效追踪人们对于品牌和商品的态度，以及对辨别指引金融市场的趋势信号起到巨大作用。但更准确的辨识推文和评论的意义可以帮助电脑自动圈出并撤销带有辱骂意味的网络言论。对于推文的更深层了解同样应当能帮助专业学者，去理解信息和影响因素是如何在网络中流动的。如果机器变的更聪明，感知情感的能力将会变成人与机器交流的关键一环。

研究人员原本打算建立一个可以检测带有种族歧视推文的系统，但后来他们发现，如果对讽刺没有一定程度的理解能力，程序会很难理解这些推文。

这个算法运用到深度学习，一个十分普遍的机器学习技术基于用大量数据训练一个庞大的模拟神经网络去辨识微妙的规律。训练该算法的秘诀就是：很多推文都在情绪化语境中添加了类似于标签体系的东西—表情符号。一旦他们利用这一点的帮助读懂大部分情感，专业学者就为辨别讽刺开了个好头。

“因为在网络环境中，我们无法用类似声调或肢体语言的形式将情感语境化，使用表情符号则可以帮助我们实现语境化。” Iyad Rahwan，一位MIT媒体实验室的副教授。他和他的学生Bjarke Feibo一同研究出了这套算法。

为了训练这套叫做深度表情符号的算法，研究者们从550亿推文中选取了12亿个包含有64个最受欢迎的表情符号的推文。他们先让系统根据推文的情感（开心、难过、搞笑等等）来预测什么样的表情符号可以被应用于该推文中。用表情符号预先训练的算法在检测讽刺歧视上表现的比没有用的更出众。他们将发布这套算法给大众使用。

为了看看深度表情符号表现如何，研究人员在几个用于检测情感文本的标准检查程序中测试了DeepMoji。他们发现这套算法在各种情况下表现的比现有最好算法还要突出。

研究人员还对DeepMoji与人类进行了对比测试。他们发现这套算法在圈点推特上的讽刺和其他情感表现的比人类更为出色。相比于人类志愿者76%的平均精确度，Mechanical Turk拥有高达82%的准确率。

深度表情符号网站可以为推文自动生成表情符号。

Felbo表示：推特上大家的语言习惯非常有意思，这也许是相当于当DeepMoji学习了不同的网络语言。

学者们建立起了一个深度表情符号网站用于展示系统的表情符号部分。它会为小段文字自动匹配合适的表情符号。看上去运行的不错，除了在我尝试输入唐纳德川普现今还不是很有名的‘covfefe’推文，它表现的如大家一样一脸懵逼。

这个网站也支持用户们的对于这项研究的贡献，通过匿名上传他们自己的推文和情感。这是这项工作中非常重要的一项，Rahwan说到。通常情况下，研究人员是让志愿者来给推文和帖子配对表情符号，这些数据都只是间接测量的。“这些基准无法抓住心理学家所谓的真正情感，”他说道。

Gary King是哈佛大学定量社交科学系主任和挖掘社交意义方面的专家。他说道，用表情符号训练是个十分明智的想法。但是如果大部分人都无法察觉的讽刺，辨识出来到底有多大的意义？“如果讽刺细微到人们都会错过，那这些就都无所谓了，”他说。

尽管如此，这项成果反应了计算机越来越能感知人类情感的事实。文字的情感分析已经是一个普遍运用的技术。例如，它帮助公司通过邮件和聊天纪录判断顾客是否不满。

今后计算机解读我们的情绪将会变得越来越普遍，可以试想一下，机器人将能察觉到人类同事何时感到失意，或者何时的恭维是讽刺性的。

“如果机器要和我们一起协作，它们则要理解我们，情感确实是十分艰巨的一项。”Rahwan说到。

原文链接：https://www.technologyreview.com/s/608387/an-algorithm-trained-on-emoji-knows-when-youre-being-sarcastic-on-twitter/

发布于 2017-08-25 14:31

MIT 公开课程

人工智能AI酱

大数据

文章被以下专栏收录

数据汪