会话式界面设计

原文地址:Conversational User Interfaces


近些年无处不在的对话体验告诉我们,人类的交流正在计算机的帮助下变得越来越简单。然而,如果你还没到30岁,你会对像来自黑客电影一样的屏幕画面感到惊讶:




今天人们熟悉的那些 UI 叫做图形用户界面 (GUI) ,在上世纪80年代被 Xerox, Apple 和 Microsoft 推广普及。早期的电脑完全是基于文本的。这是一个隐秘的、高度基于编程的过程,和机器的主要交流方式就是在上图的屏幕中输入一些基础指令。

GUI 让计算机的运行对普通人来说更直观、友好,更易于接受。它是目前所有个人电子设备的统一标准。




广泛地说,GUI 进化得对用户越来越友好了、富有视觉吸引力了,但仍有它的不足。如果你曾有过不愉快的在线订机票或酒店的经历,你会碰到很多设计不一致的文本框、下拉列表和胡乱放置的按钮。

移动设备缺少容纳必要元素的空间,最后我们回到了只有20次点击、8屏页面的让人向往的固话和黄页年代。设计糟糕的网站和移动app会让2分钟的晚餐预订变成20分钟的折磨。

让我们考虑另一种可能性:

如果在手机上输入“预订五人位置@Momofuku ”怎么样?

这是一种叫做“会话式用户界面” (CUI) 的发展趋势,它让我们意识到,有时比起那些屏幕上的轻敲、滑动和困难的操作,与电脑对话要比打字容易的多。


如果你住在东半球,你可能已经在体验它了。当今流行的通讯应用——微信,和中国的商业紧紧联系在了一起,我们习惯于下载的应用现在已经在微信上安放得井井有条了。事实上,很多商业可以完全绕开原生 app 或移动网站的开发,去选择微信这个平台。如果你在中国开始创业,那么机会可能就来自于一个聊天软件,你的客户可以直接在上面和你实时聊天。



社交软件正在开始利用多种形式的媒介破除界面设计的限制。多媒体播放器、游戏、支付、摄影,聊天平台承载了这些小程序,添加了一系列有用功能。



类似 Operator 这样的公司正在领衔北美市场,提供基于文本的、提供视频播放和基本操作的全面体验。


CUI 的魅力是显而易见的:它是会话式的。尽管目前大部分 CUI 会话是人与人的,人工智能会逐步发展,从而取代我们交流的对象。理想的情况是,这些会话可以满足我们最大的好奇心,而不只是我们感兴趣的产品。Siri 是个好的开端,但我们仍然只能“对着她说”,而非与她真正的交流。

在技术可以处理多种微妙的交流方式——人脸识别、声纹识别、肢体语言——之前,文本始终是人工智能最完美的工具。它可能不会像电影《她》中Joaquin Phoenix 和他的操作系统的对话那么情感充沛、富有魅力,但它会是向那个方向前进的第一步。



你在阅读“为人性设计”

为人性设计是一篇探索拟人化设计的过去、现在和未来的文章系列。你正在阅读第三部分。



人工智能

艾伦·图灵早就知道,机器难于模仿和重复人类在对话交流中的微小动作。因此,他在最早版本的模仿游戏中留了些余地:他设计了一个实验,去判断一台机器是否可以模仿一个人。

图灵测试中,模仿游戏在三人之间进行:玩家A (计算机),玩家B (人) 和玩家C (人)。通过一系列的书面问答,玩家C必须判断哪个是人,哪个是计算机。




图灵认为,如果玩家C在70%情况下被计算机欺骗了,那我们就能认定,这台计算机是智能的。

当然,在1950年测试开始时,计算机离具有成熟的语言能力还很遥远,因此早期的测试是基于文本的(现在仍然是)。在过去的65年里,测试像游戏一样地进行并被修改了几次,但在核心之处总会遇到同样的问题:计算机能够通过对话向我们证明它是人类吗?


MIT 教授 Joseph Weizenbaum 在1966年设计的 Eliza 是最早的尝试之一。Eliza 用萧伯纳的 Eliza Doolittle 来命名,用户可以通过一个电子打字机与程序进行对话。


Weizenbaum 以荣格心理学的理论为基础,因为有同理心的医生通常会问一些关键的、非主动的问题,这些问题不需要很多表达或与话题相关的知识。用户输入一句话后,Eliza 扫描出诸如“妈妈”、“头疼”或“家庭”的关键词,从一个庞大的数据库中找到合适的句子回复。如果它无法识别一个词,它会产生一个通用的回复内容,让对话继续下去。


Eliza 展现的对话深度几乎总是在一段时间后暴露它的身份,但它容易相处的、被动的性格吸引了公众的目光。实际上,Weizenbaum 的一些同事和学生对这个项目产生了非常强烈的感情。


“我的秘书,一个曾经好几个月看着我为这个项目工作的人,她很清楚这只是个计算机程序,但她开始和它说话了。仅仅交流了一会儿后,她就请我离开那个房间。”

如上所说,Weizenbaum 发现了一些困扰的事:人们接触了机器人,把它们当成一个真实的、智能的、对人们真正感兴趣的实体——甚至在他们知道它是个计算机程序的时候。这种状态称为“Eliza 效应”,尽管受害者的行为不总是像上面例子那么极端(并非总是要求与机器人独处),它还是让 Weizenbaum 成为对人工智能的坚定批判者。


Eliza 效应的例子展示了一个物体,这里是一台打字机,怎样仅用基本的人类特征与人建立起心理上的联系。把它从一个键盘和屏幕提升到人类级别的所有东西,只是一个基本的会话式程序。


一个物体可以仅用基本的人类特征与人建立心理上的联系。

虽然 Eliza 对交流者产生了强烈的作用,它还是丢了点东西:情感和审美上的智能。重新回到图灵的模仿游戏的概念,我们就知道这是游戏的一个分支:一个男人需要向另一个玩家证明他是个女人。

同理心是这个游戏的核心。向别人证明自己为另一个性别的最好方式是换位思考,强调他们的经历,尽可能去模仿他们。

现代版 Eliza 的性能提升了很多——它能在露出破绽前让对话持续好几分钟。根据“中文房间实验”的说法,它背后的算法仍然不去“理解”接收或传达的内容。它的原理是:假设一个不会说中文的人被隔离在一个房间里,通过缝隙向指导人员咨询问题、得到答案。尽管他拥有技术上的语音交流能力,他仍然不会理解对话的含义。


The Chinese Room Experiment - The Hunt for AI - BBC


这样看来,人工智能最后的障碍不是图灵所说的“迷惑人类同伴的能力”。理解收到的信息,最终与别人引起共鸣才是问题的关键。从下面的视频中可以看到,特定的人工智能可以加入和人的交谈中,但它的回答还是表现出了它几乎没理解对话的内容:



Hot Robot At SXSW Says She Wants To Destroy Humans | The Pulse | CNBC



人性化的科技

关于这个领域,有一整个计算机技术的分支投入在其中,商业公司也在利用发达的科技手段把它们变成日常生活中的实际产品。


Amy 是一款流程简单的应用:她帮你规划日程,组织你的日常会议工作。最吸引人之处在于,她非常像人类。只要把她 cc(抄送)在邮件中,Amy 就被激活为一个办公助手,活跃地工作起来。Amy 可以进入你的日历,所以她明确知道你是否有空。她知道所有你偏好的会议地点,因为你可以在每次发现新地点时给她发个快捷邮件。但 Amy 最人性化的地方是,如果你愿意的话,她可以帮你处理剩余的邮件工作:



这里,Amy 不止是一个聊天机器人了。她能从以往的会议记录里得到信息,基于经验给出建议。在某种程度上她可以独立工作。她能得出“结论”,而不久之前只有人可以做这些事情。会话式界面在进步,在开始适应我们的习惯,这些交互将设计得更加精妙。Google, Facebook 和 Amazon 已经从市场中了解到人们的线上行为模式,但 CUI 会像朋友和同事一样了解我们。


推进技术发展的,是众所周知的深度学习。通过大量原始数据的训练和对输入信号的修正,深度学习教会软件识别声音、图像和其它类型数据的特征模式。最让人印象深刻的应用莫过于 IBM的人工智能程序 Watson,它在节目《危险边缘》中摘得了世界冠军!现在,Watson 应用于帮助医生诊断患者病情、提供治疗方案的工作上。



CUI 需要你的耐心…

到目前为止我们阐述了 CUI 改变人机交互方式的潜力,但我们也要考虑它的缺点,特别是它目前的形式。





上面的例子中,未来与计算机的一场轻松交谈就像这个自动优先序列,强迫你做出选择,如同给有线电视公司打电话时那样:一种让人抓狂的枯燥无味,远比直接向操作员解释的5秒钟浪费时间。


事实上,做出这样产品的公司向我们抛了一个小小的弧线球:它强迫我们用与图形界面交流的方式,和会话式界面进行交流。对着手机敲字比真正的对话可差远了。


即使是当今技术最先进的 CUI 之一 Siri 也存在缺陷。Siri 擅长餐厅、食谱推荐和指路,但它很难觉察到人类敏感话题里的细微之处。它曾给出一个路程指引,把用户带入可能是自杀前兆的武器店中,也曾经对一个妈妈说,她女儿遭受的性虐待事件“不算什么问题”。




基于文本的交流显然还在早期阶段,语音识别可能发展成为识别我们的口音,处理更精细的事情,但这两者都不涉及肢体语言或面部识别,而后两者才是未来界面严重依赖的识别方法,就像我们依赖词语一样。尽管 CUI 潜力巨大,它仍然只是我们将机器推向下一阶段的人工智能手段而已。

理想情况下,随着人工智能的发展,我们将会以多种方式和机器交流,文本、声音、GUI、体温,以及用户喜欢的和所处情景下的小动作。也许我们的机器会非常了解我们,可以和我们进行视觉以外的交互。


我们将会以多种方式和机器交流,文本、声音、GUI、体温,以及用户喜欢的和所处情景下的小动作。

比如,我不喜欢拔出手机输入密码和家庭地址,让它知道我到家了。未来的家可以感应到我就在附近,当我到达的时候进行人脸识别,在我按下把手前自动解锁。当然,在没有让我感到它过于强大的情况下,家门会在我到达时自动为我开启。

当今的流行文化也同样注意到了这些可能性。电影《她》中,操作系统仅仅通过主角的一声叹息就得知了他与母亲的关系如何。从对话中一个简单的暂停就能解析出强烈的人际关系,这说明机器可能在获取细微情感线索的能力上最终超越我们。

计算在用与人类相似的方式,逐渐学习积累和解释数据的方法。

精准预测 CUI 如何施展威力还为时过早,它会怎么观察和感受世界我们还不清楚,但对情感信息的研究和实现已经开始了。通过无源传感器检测用户的身体状态和行为,计算在用与人相似的方式,逐渐学习积累和解释数据的方法。

例如,摄像机能捕捉人的面部表情、手势和姿态,而麦克风和其他声频设备能敏锐地记录对话的每个细节。同时,多媒体设备早已能够监听体温、心跳等生理信号。人工智能以拼接数据的能力独立完成任务,从而让我们与技术更深层次地交流。




视频:AI

为人性设计

为人性设计是一个探索拟人化设计的过去、现在和未来的文章系列。



1: 为人性设计2: Apple, 最初的人性化设计3: 你在这里
4: 智能化未来5: 情感机器6: Computers Cry Too7: The Day You Become a Cyborg


我是 Daniel。我创立了一些公司,包括 Piccsy (acq. 2014) 和 EveryGuyed (acq. 2011)。目前我在迎接新的事业和工作机会。邮件联系我吧。

本篇由 Shaun Roncken 参与编辑。



--------------------------------------------------------------------------------------------


原文地址:Conversational User Interfaces

会话式界面设计相关文章:

为何会话式设计是我们的未来

会话式交互设计:构建上下文

会话式设计的社会与技术挑战

发布于 2017-02-21