智能语音交互的产品思考（上）

归来仍是少年

（一）什么是语音交互界面（VUI）？

讨论语音交互界面（VUI），就不得不提大家耳熟能详的图形界面（GUI）。

自从1973年施乐公司设计出第一个可操作的图形界面操作系统Alto以来，包括苹果、微软在内的各家公司相继推出支持图形界面的操作系统，使得GUI渐渐成为人机交互的主流形式。进入移动互联网时代，虽然交互手段由键盘鼠标变成了触控，但本质上交互仍然以GUI为载体进行。PC时代以后入行的产品经理和交互设计师，大部分时间都在和GUI打交道。

AI时代来临后，语音交互更多的被提起。2015年末至2016年，国内出现一波服务机器人创业潮，各种形态、功能各异的“机器人”频频占领科技新闻头条，这一时期的机器人简单点说就是把语音助手放进类人形硬件外壳，其主要交互方式正是语音交互。然而，这一波机器人浪潮并没有成功打开C端消费市场，而大洋彼岸的Amazon Echo却不断攻城略地，成为AI时代第一个名副其实的爆款单品。总之，后移动互联网时代，大家纷纷把目光瞄向未来，思考下一个可能的入口，而拥有语音交互功能的智能音箱逐步走向舞台中央。我们也渐渐在业内看到越来越多关于语音交互设计的讨论。

那么，当我们谈论语音交互时，我们到底在谈论什么？

语音交互界面的英文是VUI（voice user interface的缩写），与此相似的概念还有CUI（conversation user interface ）、NLUI（natural language user interface）、LUI（language user interface）等等。这些概念大致相同但却有细微差异，比如NLUI或LUI是宽泛意义上的自然语言交互，含义最广；CUI重点则在对话，这里的对话狭义来看是指类似微信这样的聊天界面，2016年微软提出CAAP（conversation as a platform）的概念时，关注的更多也是在Skype生态里面的智能对话；VUI则专注语音，更多是指类似智能音箱这样通过声音去交互的用户界面。本文的讨论都是在VUI这个范畴内展开。

那么，如果考虑整个交互流程的输入输出，VUI事实上包含了三个技术环节：

语音识别（ASR）
语义处理（NLP）
语音合成（TTS）

个人认为，这个三个环节共同决定了语音交互的体验，任何一个环节有明显缺陷均会导致整体交互的满意度降低，缺一不可。

（二）为什么语音交互界面（VUI）被广泛关注？

讨论这个问题前，首先我们必须明白一个道理，即这么多年，互联网巨头在做的事情一直都是：抢入口、抢入口、抢入口。占据了入口就控制了用户流量，有了流量建立各种商业模式就会是水到渠成，这里不再赘述。

那么，从PC时代到移动互联网时代，再到后面的AI互联网时代，或者IOT时代，巨头们都先后争抢过哪些入口呢？我用下面这个表格总结一下：

从上往下，我把互联网切分成PC时代、移动互联网时代、AI过渡时代和AI互联网时代：

PC时代的平台显然是桌面操作系统，平台本身就是最大的入口，微软也凭借Windows赚的盆满钵满，但是在国内由于盗版的原因情况完全不同，各巨头争抢的是windows之上的次级入口。PC互联网时代的产品以网页形式存在，所以次级入口就集中在浏览器和搜索，围绕这一入口产生了百度、搜狗、360、遨游等公司。这个阶段的应用形态是网站，用户界面是网页页面。

移动互联网时代，各家都以APP的形式提供服务，移动搜索并没有继承桌面搜索的地位，用户需求也从信息搜索向服务搜索转移。周鸿祎大概在12年就看到了这个趋势，发力360手机助手，占据了应用分发的关键入口。同期的公司还有豌豆荚、91手机助手，以及后来的腾讯应用宝和百度手机助手。

但是到了移动互联网后期，APP市场饱和，用户手机中的APP基本稳定下来，用户很少再有搜索新应用的需求。此时应用市场的入口地位大大削弱。而业已存在的微信、头条等超级APP占据了大量用户时长，已成为实际上的新入口。这些超级APP依托流量优势，尝试在内部建立新生态，比如微信公众号、小程序、头条号，这些尝试本质上是希望在超级APP内重现桌面搜索的辉煌。

2016年的大洋彼岸，同样面临移动市场饱和困扰的美国巨头们也有了新的思考方向：3月份的build大会，微软首次提出了CaaP（Conversations as a Platform）的概念，并推出bot framework；4月份的F8大会，Facebook接力发布messager platform上的聊天机器人；5月Google I/O大会，Google推出了新一代语音助手Google assistant以及智能音箱Google home。这几家巨头的思考逻辑可以总结为：把移动IM这类超级APP（Skype、Messenger、Allo）作为新的入口，在其中引入bot生态（可以理解为对话版的微信公众号），在bot内用对话的形式提供服务；或者直接尝试强推语音助手（Cortana、Google assistant、Siri）使其成为手机上的新入口，在虚拟助手内通过对话服务用户。

后来的事情并没有按照这些巨头的预期发展，原因只有一个：Amazon Echo。这里面很有意思的点在于，巨头们都看到了AI或者语音交互的前景在布局，其他几家要么拥有几亿用户的超级IM（微软和FB），要么控制了手机或手机OS（Google和Apple），唯独Amazon在整个手机时代没有任何入口级优势。这也导致Amazon思考AI时直接抛弃掉手机生态，开发了智能音箱，而其他几家囿于既有优势失去先机。

Echo的火爆让AI或者IOT的前景变得更加清晰，那么新的平台和入口到底是什么呢？

我们转向用户角度思考这个问题。IOT时代万物互联，意味着你身边的任何设备都是联网的，你可以在任何地方、任何时间和任何设备交互（IOT的4A原则），所以IOT其实是去中心化的，手机当前的交互中心地位会被极大地削弱。未来计算平台的前台，是一系列形态、功能各异的智能硬件，这些硬件或大或小，有屏或无屏，近场或远场，位置固定或随身移动。虽然千差万别，用户却希望在任何一台设备上的交互状态可以云端同步至其他设备，用户可能随时在设备间切换，但希望交互进程和数据流不被中断、持续向前（集群智能）。那么，什么样的交互能够支撑这种切换需求、适配各类设备而又保证体验的一致性呢？从这个角度思考，我们很容易就能发现语音交互的独特优势。

事实上，语音交互对硬件的要求很低，最简的组成是mic+speaker+wifi+power，简易的语音交互模组成本可以做到几十块钱，这使得它在智能硬件中有极强的普适性。

IOT时代的硬件是非标准化的，所以在前台不会有安卓或者IOS这样的统一的操作系统，这个入口并不成立。但是，当用户和设备对话时其实是在和设备后的云端AI交互，如果有一天，所有智能设备背后的AI大脑都是同一个服务会怎么样呢？这就是alexa在做的事情，2017年CES，Amazon没有派任何员工到场，展会上也没有Amazon的展位，但是Amazon却接管了整个会场，因为参展的智能产品大多数都接入了Alexa的智能对话服务。所以AI云其实是存在于云端的下一代操作系统，这个操作系统正是IOT时代的计算平台，这个平台上的交互入口，可能是一个统一形象的无处不在的虚拟助理，也可能是分发各类bot的bot商店，也可能就是AI云本身。在国内，我们也看到了Duer OS这样的对话式操作系统，

小结一下，上文通过总结平台和入口的迁移，分析了IOT时代可能的新平台和新交互。我们看到，随着用户交互设备的去中心化演进，语音交互的优势逐步凸显，而提供语音交互能力的云端对话平台，最有希望成为下一代流量入口。

当然，语音交互受到广泛关注还离不开相关关键技术的成熟，但本文并不打算展开讨论技术进展。总体上，个人认为技术、交互、平台三者的关系是：新技术促进新交互，新技术+新交互拓展使用场景，进而催生新的计算平台。

（三）语音交互（VUI）有什么特性？

上文讨论了IOT时代语音交互独特的优势，但是需要特别说明的是：笔者并不认为语音交互是最好的交互方式。

虽然一直从事AI领域产品设计，但AI并不是我们的目的，AI其实只是我们的手段。进一步来说，AI并不是一个行业，而仅仅是一种技术，它是互联网的水和电而非业务本质。常有人说我是做人工智能的，其实仔细想想我们做的还是电商、社交、教育、医疗等等，只是我们应用了AI技术来优化这些业务的生产效率而已。

同样的，语音交互也只是我们的手段而非目的，所以切忌为了语音而语音，有太多的场

景下语音真的不是最优选择。

那么基于这个认知，我们必须要搞清楚的一点是：语音交互既然只是一种交互方案，那么这种方案到底有什么优势，有什么缺陷？这样我们才能进一步搞清楚，哪些场景适合使用语音交互，哪些场景应该避免使用语音交互。个人总结如下：

语音交互的优势：

解放双手、双眼、双腿，接触空间限制，远场可交互；
指向明确，语义直达目标，缩短使用路径
自然简单人性化，学习门槛低
可以1对1，也可以1对多
对设备要求低

语音交互的劣势：

不适用于选择多、流程长、需要大量辅助信息决策的交互任务
远场语音交互对距离、噪音、混响、声源数量等等有一系列要求
一般不适用于公共场所，尤其是需要安静的尝试（图书馆、会议室）
依赖嘴巴和耳朵，受限语种、口语和发音，部分人群受限
输出信号单一，表现力有限

我们发现，语音交互虽然有很多突出的优点，但其缺陷同样明显，在产品设计中一定要还原清楚用户使用场景，到底适不适合用语音，扬长避短。

那么，到底在哪些领域适合提供语音交互功能呢？

（四）语音交互（VUI）适合的人群和领域

1.语音交互适合的人群：

事实上，语音交互对人群的要求真的很低，只要具备基本的语言表达能力和倾听理解能力的人群，都是语音交互的适合人群。

不仅如此，在以往的互联网时代被忽略的特殊人群，却极有可能在语音交互浪潮中收益，这些人群包括：

老年人（不会上网，不会用手机、不会打字）
儿童（和老年人类似）
盲人等残障人士（看不见，动不了，但能说能听）
行动不便的病人或孕妇（移动不便，不宜近场使用辐射设备）

2.语音交互适合的场所：

讨论这个问题前还要提一下，语音交互可以分为近场和远场两种形态。近场语音交互最近提的比较少，原因是近场语音识别基本上是已经解决的问题，如果你还没有使用习惯可以去体验一下搜狗、讯飞这类语音输入法，识别的准确率往往会大大超出你的预期。但是，当交互距离变大（3-5m）时，语音识别需要解决的问题事实上已经完全不同，需要借助一系列的前端声学处理，这就是麦克风阵列及其算法如此重要的原因。

当我们罗列语音交互适合的场所时，发现近场和远场有一定的区别，这里分开来说。

远场语音交互适合的场所，一般都是偏私密的场合，参考上文提到的VUI的优势和劣势，很容易得到这个结论。那么这些场所有哪些呢？