为什么我不看好AR眼镜?

为什么我不看好AR眼镜?

以下仅代表我个人看法

电影钢铁侠中炫酷的AR场景是大部分科幻迷向往的AR未来


很多科技迷对AR眼镜都有着由衷的痴迷(我也不例外),科幻大片也最爱用AR的全息交互界面来营造未来感。如果问一个果粉,最期待苹果未来能推出什么重磅产品,可能大多数人的答案会是AR眼镜。


但今天,我要泼盆冷水,谈谈我为什么不看好消费级AR眼镜。


首先,在开始之前,我要简要介绍以下我的背景,说说我为什么谈这个话题(长文预警)。我目前在Google AR团队负责AR Search的交互设计,前段时间全世界非常火的Google AR动物就是我在做的产品(很遗憾国内小伙伴看不到)。从最初接触和设计AR项目已经超过4年了,我曾经参与Google AR设计指南,负责Google AR Measure等产品设计。我也发开设计过几乎所有主流的AR/VR眼镜平台,包括HoloLens,Magic Leap,Meta 2,Google Glass,HoloKit,Oculus,Vive,Bose AR,Leap Motion等。应该说对各类眼镜的性能和局限有较深入了解。

曾经红遍一时的Magic Leap AR眼镜公司近期也裁员50%,未来堪忧


在设计了这么多AR项目和产品后,我对AR眼镜的发展有一些和业界主流不同的观点,希望分享出来,既能让大众更全面的了解AR眼镜,也希望与同行交流,深入讨论现存的挑战,并尝试提出解决方案。欢迎持不同观点的小伙伴探讨。


直接说核心观点:

短期内(2-3年内)我非常不看好消费级AR眼镜,尤其是各种AR创业公司宣传的强技术性AR眼镜(带SLAM技术)。而真正能够推动市场接受的第一代AR眼镜,大概率将没有摄像头,以耳机、提醒和运动健康为核心模块,通过基本的抬头显示(head-up display)和镜腿的触控板及语音完成交互。


那么,接下来做深入分析,先聊聊为什么我不看好消费级AR眼镜。


1. 局限的应用场景


就现有的技术能力而言,AR眼镜的高频应用场景非常有限,尤其是强技术的AR眼镜,更是用武之地非常小。这里稍微展开一下,我所定义的强技术的AR眼镜,就是有SLAM(空间定位和地图建构)技术,比如大部分AR宣传片中炫酷的技术效果,实际上,这种产品在设计上也非常不符合我推崇的Calm Technology的理念。回到真正高频的消费级使用场景,听歌(包括音乐、Podcast,视频等)和消息通知提醒(短信,通知,日程,导航)其实是最核心的高频场景,可以理解为是Apple Watch + AirPods覆盖的主要使用场景

可能你看了这些场景后多少有些失望,没错,里面大部分的功能手表和手机也能完成的不错,所以AR眼镜的提升是非常有限的。使用场景的局限实际上是限制AR发展的最核心因素,因为如果一个产品找不到核心的场景,也就不可能有核心卖点。


下面我举几个例子,说说一些AR厂商大肆宣传的大部分场景为什么其实非常不适合AR眼镜

这张图展示了Hololens(第一代),Magic Leap和 PlayStation VR眼镜视场角(FoV)区别,可以看到AR眼镜只有40度左右,相当于把屏幕切成一个小方块,完全无法提供沉浸体验


为什么不是观看流媒体和视频

观看各种流媒体视频应该是我们今天在手机上花费很多时间的场景,无论是YouTube,Neflix,或者是国内的腾讯视频,B站,也包括抖音、快手一类的短视频媒体,实际上都不适合AR眼镜。为什么呢?

这张图展示了目前HoloLens 2的上头体验,环境会被压得很暗,AR内容相对比较亮,而且成半透明状。图像分辨率、颜色保真度和对比度等都不是特别理想。所以并不适合长时间观看媒体内容


第一,目前的AR眼镜是不可能完全解决视场角(FoV)的问题的(由于目前主流光波导镜片的局限),也就是说你看到的不是完全沉浸式的大屏,而是一个被四周切掉的矩形。这样的一个矩形很难给人多少沉浸感,所以和大屏手机没太多体验上的提升。


第二,AR眼镜是光学叠加成像,只能渲染亮色,不能呈现黑色,这也是为什么所有的AR眼镜都和墨镜一样,不得不把环境自然光过滤掉来增加亮暗色对比度,谁会愿意每天戴着墨镜,连和周围人的基本眼神交流都没有了。即便如此,往往是AR内容依然呈现半透明状,尤其在环境光亮的场景,成像对比度很差,视觉体验并不好。手机厂商对屏幕做了无数的迭代来才达到如今的高画质。而一个AR眼镜,一夜回到革命前。就好像你适应了苹果iMac 的5K显示屏,突然换成21寸1080P的宏基显示器,明显的颗粒感和颜色失真是有巨大的体验落差的,尤其是在对于画质要求很高的流媒体播放上。

微软Hololens上的探案解密游戏Fragment,非常好的运用物理空间设计的一款游戏,游戏人物可以真的坐在你家的沙发上和你对话


为什么不是AR游戏

很多人会说,AR游戏是一个重要的AR场景,我们能体验到全新的游戏体验。但是很遗憾,要说游戏玩家会像玩PS4,玩手游一样去玩AR眼镜,那就是想多了。


游戏的本质是能带玩家进入一个全新的世界,扮演全新的角色,完成超验的体验,但这种驱动力是和AR的媒介相互矛盾的。一个传统游戏或者VR游戏可以带用户去大漠,去森林,去海底,穿越时间回过去、到未来,让游戏世界变成一个近乎无限可能的空间。然而,在AR游戏中,玩家依然能看到现实空间,AR游戏只能利用用户有限的物理空间互动,于是所有体验都被用户物理空间局限住了,很难尽情发挥想象。这种局限不得不一次次的把游戏拉回现实,让玩家时时刻刻意识到自己住在逼仄拥挤的5平米卧室中。相信这种体验,很难让玩家长时间投入。

Keiichi Matsuda短片《Hyper Reality》描绘了被AR信息标注后的世界,呈现出信息爆炸的一个极端体验,我相信很少有人真正愿意每天生活在这样的世界

为什么不是标注现实

在AR概念视频中总是有各种给现实世界做标注的,比如这个餐馆评分怎么样,这里又能提供哪些服务,甚至把世界改变成一个巨大AR游乐园,仿佛现实就是个游戏世界,更有Vivo最近的AR眼镜通过人脸识别把人做标注。我来谈谈为什么不看好这类使用场景:

第一,从用户角度,把世界标注或者变成一个AR游乐园作为概念或游戏体验一下是不错的,但拥挤的信息在眼前爆炸,没有多少人能长时间享受这种体验。信息在今天不是稀缺资源,相反,是过剩资源,产品应该想怎么剔除不必要的信息,而不是试图盲目增加。

第二,从技术角度,实现这个效果本身技术上没有太大门槛,完全可以几个人用1-2周时间做个demo。但是这个是需要眼镜的相机实时打开的,AR显示屏也要一直亮着,背后CPU,GPU实时做SLAM计算,且不说隐私问题,以目前技术,电池续航撑不了多久。

Vivo AR眼镜概念视频的一个镜头,通过人脸识别给人做标签。这个真的是我们想要的未来吗?每个人的头上都顶着年龄、身份、甚至社交媒体的打分标签?

第三,我稍微吐槽一下Vivo AR眼镜中一个demo,把你身边每个人用面部识别做AR标签,真的是我们想要的未来吗?你希望以后在别人眼里,你的头上顶着一个AR标签,写着你的年龄,学历,职业和社交评分吗?我觉得设计师有责任为我们的未来负责,避免科技走向《黑镜》中反乌托邦。并不是我们有科技技术去实现一件事,我们就应该去做,“能不能”和“要不要”应该有明确的道德底线。我在Google曾经参与一个项目,就是制定AR设计的道德准则,保证AR产品不会走向歧途。


2. 缺乏高效的交互方式


在iPhone出现之前,智能手机已经可以拍照、上网、听音乐,上QQ了,那为什么智能手机直到在iPhone出现后才真正起飞?原因很多,但其中一个就是iPhone的触屏交互在真正意义上提供一种高效的交互模式。在这里一定要强调“高效”,我认为的高效交互有几个原则:

  1. 高速:用户能在非常低延迟、流畅地切换应用和功能,完成输入。
  2. 轻松:符合用户的人体工学,用户长时间使用也不会有疲劳感
  3. 准确:低错误容忍度,比如使用手机26字母键盘,即便按键很小,依然要求高准确率和低错误率。
  4. 符合社会习俗:简单说就是不感到尴尬。什么叫不尴尬?一个人穿着短裤拖鞋去参加人大会议就是不符合社会习俗,就是很尴尬。同样地,交互方式不应该让用户感觉尴尬、不自在。

但直到今天,我们依然没有找到一个能满足以上标准的高效交互方式。

我在CMU研究生阶段做的手势交互设计,利用自然存在的Affordances,让设备和AR世界间能无缝的连接。(这个是实际demo,没有后期特效)


手势交互:
手势交互的问题我在“下一代革命性交互”的回答里讲过,具体可参考那篇文章,这里就简要概括一下:

  1. 不符合人体工学:长时间举手非常疲劳,也就不满足刚刚提到的“轻松”的原则
  2. 触感缺失:触摸虚拟按键没有力反馈,也就很难实现“速度”的要求
  3. 违反社会习俗:在公共场合有无足蹈会让用户感到非常尴尬,就是原则里的第四条。
最近被Facebook收购的CTRL-Labs的神经信号手势识别设备,戴在手腕可以读取神经信号,结合机器学习来做手势判断,对这个技术的未来比较看好

实际上,通过腕部神经信号做手势识别的技术我是非常看好的,目前唯一拥有这个技术公司叫CRL-Lab。这项技术由于不需要用户把手举到空中,可以在任何姿势和位置做手势识别,所以是可以解决以上提到的大多数问题的。这家公司也曾经联系到我,在全球选了几位AR/VR设计师和开发者和他们共同来探索这项技术的交互应用,但我当时准备毕业论文,也就拒绝了。不久前,Facebook收购了CRL-Lab,应该说进一步表明了FB要做AR/VR的战略决心。

Bose AR眼镜用内置的IMU感应镜腿的点击来进行交互,和AirPods类似,适合于轻量级的眼镜形态

眼镜腿触控交互
在Bose AR中,双击镜腿会出发交互指令,比如唤起语音助手等。Bose AR眼镜主要用的眼镜内的IMU(陀螺仪,加速度感应器)加上算法来做识别,并不是非常准确,也就不满足我们说的“准确性”的要求。

当然,我们可以把镜腿加上一个类似笔记本电脑的touch pad触控板,这似乎是一种可行的解决方案,我们就可以加入单击、双击、长按、滑动等更丰富的交互方式,但且不说划着眼镜腿会不会总把眼镜碰歪,这个交互依然需要用户把手举到和头一样的高度进行交互,也就违背了人体工学的要求,做为低频的交互模式没有问题(AirPod也是支持手指的点击交互),却很难成为高频和长时间的交互方式,不可能成为生产力工具的主要交互方式。但作为轻量级眼镜产品的交互模式应该是足够了,我也认为这中模式大概率会是第一代AR眼镜的主要交互模式之一。


语音交互
语音交互对于未来的AR眼镜肯定是一个必备能力,非常适合目标明确的交互任务。比如播放音乐,导航去XX,设置提醒闹钟。但我们今天在使用互联网,有太多时间不是花在这些目标明确的任务上。刷朋友圈,看短视频,订外卖,浏览网页,网上购物等,这些以“逛”为核心的体验,语音是非常局限的。

国内创业公司Nreal Light应该是市面上最接近普通眼镜的AR眼镜,但连接到手机的USBC线和墨镜感的滤光镜片依然让他很难成为日常佩戴的产品

如果没有高效的交互方式,那么AR眼镜就不可能成为一个生产力工具,也很难实现购物,浏览网页,社交媒体互动等需要复杂交互的场景应用,比如连打字输入这个看似简单的任务,以上交互方式都没有能够根本解决。有人说除了我上述提到的方式,还可以使用手柄或者手持控制器,这种方式可能适合游戏这种私密使用场景,但很难让用户在日常生活中再额外带一个外接设备。而之前也分析了,游戏本身不会是AR产品中的杀手级场景,所以这个AR手柄能解决的场景从根本上就是个伪命题。


3. 外观和佩戴舒适性


硬件的外观应该说不仅仅是个设计的问题,更是产品定位的问题。我们这里主要探讨能日常使用的产品定位,那产品就要满足轻便、外观低调(和普通眼镜外观无异)。


实际上,现在市场上已经有相对轻便的AR眼镜了。一副普通眼镜的重量理想在30g内,墨镜在40g内,而国内Nreal已经能做到88g了,应该说重量和外观与普通眼镜已经比较接近了,但Nreal light的计算是依赖于用USBC线连接到手机的,所以可以算是采用的分体的设计,Magic Leap也采用了这种设计,可以给眼镜镜身大幅度减重。但很遗憾,这种设计和他的产品定位是相互矛盾的,因为一方面NReal Light想要轻便定位于日常佩戴,另一方面连接手机的那根USB线使用上非常别扭,也不适合长时间日常使用。


有没有解决方案?目前在这种产品定位下是没有的,因为一方面AR眼镜要求6DoF tracking和SLAM(空间定位和建构)的能力,这个能力本身是非常吃设备性能,进而非常耗电。于是为了保持合理的续航时间,只能增加电池容量,而每增加一分电池容量,就增加一分眼镜整体重量。所以在电池没有大幅度提升效率之前,这几乎是个悖论的死循环。


4.电池续航

对于消费级AR眼镜来说,这个问题的重要性永远不能被忽视。刚才提到了续航和产品重量之间的矛盾问题,越长的续航,意味着越大的体积,也就是越差的用户体验。而我要问一个问题,AR眼镜需要用那么多的电量吗?需要实时做SLAM空间定位吗?需要无时无刻不显示AR画面吗?我觉得这个问题,大部分AR眼镜公司可能并没有想清楚,所以不得不退而求其次,选择分体式设计,亦或者加大体积和重量,变成一个头盔式的设计(比如Hololens,但注意Holelnes是2B的产品定位,所以这么设计没有问题)。

另外,消费级AR眼镜对于近视者来讲是需要配矫正镜片的,这当然本身并不难解决,大部分AR眼镜公司也都有对应的解决方案。但这里的悖论是,如果电池续航只有2-3个小时,意味着在电池耗尽后,这副AR眼镜的价值无异于一个普通的近视镜。那一天中剩下的8-10个小时白天工作时间,用户要不勉强接受戴一个又重,又不舒服的没有AR功能的AR眼镜,要不需要再每天准备一副额外的普通眼镜换上。无论哪一种,都是非常糟糕的用户体验。所以,我觉得要让AR眼镜成为日常佩戴的消费级产品,在电池技术没有长足进步前提下,必须大幅降低对电池的依赖,从低功耗的路线。

Magic Leap 早在2015年释放的这个鲸鱼的概念视频相信大家记忆犹新,几乎一下子点燃了人们对AR技术的热情。但后来实际产品也证实,这个效果完全是后期合成,与实际体验相差甚远。但鲸鱼的这一跃,将永远成为AR发展史上最有戏剧性的一个画面,仿佛象征了Magic Leap一瞬即逝的陨落过程

走下神坛的Magic Leap


从技术到设计,多个条件在今天都不完备,所以我说短期内我是非常不看好消费级AR眼镜。在2B的某些专业应用场景,AR眼镜确实有自己的刚需。但对创业公司来说,2B的天花板太低,也很难讲出打动VC的好故事,所以很多公司一股脑的往2C的AR眼镜上冲。

最典型的例子就是Magic Leap,2个月前,有人向我咨询AR行业现状,提到Magic Leap,我说非常不看好,并判断离被收购的结局也不远了,对方还非常不解。果不其然,不久前,Magic Leap宣布裁员50%,也传出100亿美金求收购的消息。而Magic Leap的价值主要在专利和技术人员,裁员50%后的Magic Leap价值自然又大缩水,另外市场上有几个有能力和有意愿收购它的公司?它到底有多少其他公司没有但迫切需要的技术?答案也是非常存疑的,所以最后大概率一地鸡毛地贱卖。

Magic Leap的早期原型,尽管最终发布产品已经在体积上缩小了无数倍,但离消费级产品体验还有一个数量级的差距


Magic Leap 2C的激进产品策略完全浪费了几十亿美金的投资,更是消费了大众对AR产品的期待,我认为失败的主要问题有四。第一,从大环境上看,2C的AR眼镜技术和市场上都还完全没有成熟,这是客观因素,上面已经做了详细分析。第二,从创业方法论上看,Magic Leap还在走几十年前的瀑布流和憋大招式的产品研发模式,没有做足用户测试,没有敏捷试错迭代的过程,公司产品一直保密,妄想着靠一个大招来一击制胜,自然风险非常高。第三,从公司战略上看,企图一蹴而就地搭建整个开发者,合作伙伴,和内容生态的野心太大,烧钱也猛,不然不至于这么快烧完融资,本来还有腾挪转身2B的可能,现在局面难上加难了。第四,过度营销给用户心理预期过高,而产品问世后自然带来更多失望,但这个我倒觉得是相对次要的原因。



消费级AR眼镜是否有解决方案?


有,但需要完全重新思考AR眼镜的产品定位。现在大部分AR眼镜创业公司都走到了一个2VC的歧途上,走强技术的AR眼镜,大力宣传自己的AR技术,空间定位(SLAM),物体识别,手势追踪,多人共享等,试图勾画一个让人激动的未来图景。事实上怎么样呢?

一方面,从技术实力上讲,这些AR创业公司与Apple,Google,Facebook等一线大厂比几乎没有什么优势,大厂完全可以通过后发制人的方式进行用户体验和产品技术上的碾压,更何况硬件生产需要完整供应链运营能力。所以大厂完全可以放任初创公司试错,等到有市场上比较成功的先例再出招,这也是为什么苹果在短期内没必要,也不会推出AR眼镜的重要原因(果粉们可能要失望了),苹果完全可以后发制人。

另一方面,从用户角度上讲,这些功能到底提供了多少用户价值?而又要为之付出多少成本?这里的成本不单单是企业研发生成成本,而更是转嫁到产品上的,比如重量,电池续航,散热,舒适性,成本和价格等。所以我认为现阶段走强技术的AR眼镜是歧路一条。


那么,更符合用户需求,符合现阶段技术的产品形态是什么?
应该定位为AirPod和Apple Watch的延伸,作为手机附件(Accessory)存在,并且有三个核心功能模块:


第一,AR眼镜首先要是一个好耳机,要和AirPods一样好用。听歌听音频视频是最核心的高频需求,戴眼镜的用户再不需要戴AirPods,而不带眼镜的人也可以有动力戴上眼镜,不用被抱怨每天堵着耳朵戴AirPods了。眼镜要能做到10小时左右的续航,成为一个可以让用户一整天佩戴的产品。这里有人会担心眼镜的耳机漏音问题,Bose等耳机厂家其实已经有技术能让声音定向传到用户的耳朵里,外人几乎听不到,来确保用户隐私和不打扰他人。


第二,让AR眼镜像Apple Watch一样成为更贴身的通知提醒平台。设计师需要非常小心地来过滤不必要的提醒通知,只让最重要的消息出现在眼镜的屏幕上。而这个的设计原则是尽量减少用户掏出手机的频率,让眼镜成为手机的一块延伸屏幕。比如现在智能手表可以让你看短信,读通知,步行导航等,都可以算在这个范畴。而这块屏幕也不需要很大的视场角(FoV),因为基本的Head-up display是完全可以满足通知提醒的要求,可以理解于把手表屏幕移动到眼镜上。


第三,主打健康和运动。如果说前两者是高频使用的核心功能,那运动和健康将是这款产品的核心卖点。很少有用户真正关心有多少炫酷的AR内容浮现在眼前,但运动和健康是每个人都切实关心的。通过镜腿上的传感器监测心跳,IMU来记录运动,加上AR显示的实时运动数据等,这款产品将能把运动健康和科技结合的更紧密。而健康和运动的定位也更容易让非技术迷的大众用户接受AR眼镜,有动力去首先尝试。

当年的Google Glass是硅谷科技极客们的玩具,但过于未来感的外观、隐私问题的担忧和高售价注定它是个小众科技产品


讲了这么多,你可能注意到我根本都没有提到摄像头。没错,我对摄像头在第一代AR眼镜中的运用是持非常保守态度的。无论是摄像头所带来的隐私顾虑(也是Google Glass失败的重要原因之一),还是对电池续航的消耗,以及对计算性能的要求,都不是特别符合大众消费级产品的核心定位。在这种情况下,我觉得舍弃摄像头不失为一种好的选择。


我列举的三个模块是我认为第一代AR眼镜最核心的功能定位,当然相应的可以配合语音助手(这也是AirPods延伸功能范围内),有简单的音乐切换选择功能等基于这三大模块延伸的功能体验。这些是看似是非常平淡的功能,但不仅是对现有AR眼镜形态的一个大力的减法,更是在用户体验上做的加法。如何能把这三个功能模块做到极致,和已有的手机、手表,甚至更多的设备做无缝整合和关联,将是决定谁能打开这个重要的人机交互新入口的最终决定性因素。

而当这样一款产品诞生后,很可能大部分人的第一反应会是失望和嘲讽,但一旦你上手体验之后,很可能变成“真香”的评价,就和我们对待AirPods的态度转化一样。引用Google创始人Larrry Page“牙刷测试”的观点,这也是我们在Google做产品和设计时常常用来自检的原则,更是Google收购一家公司的一个重要衡量标准:

这是不是(像牙刷一样)你每天都要用几次的产品?它有没有让你生活更好?
Is this something you will use once or twice per day, and does it make your life better?"

而我想,如果AR眼镜的从业者能用这个标准来检视自己的产品设计,剔除掉对炫酷的技术执着,寻找能通过“牙刷测试”(Toothbrush test)的使用场景和产品定位,那就更有可能设计出用户真正喜爱的AR眼镜。而这里讲的喜爱,不是用嘴说说或分享朋友圈,而是用户用自己口袋的真金白银来投票,并愿意每天佩戴的喜爱,而只有这样真正的“喜爱”方式,才能带来这个行业的繁荣发展。

————————————

欢迎关注我的知乎专栏“隐形的界面:万物互联时代的交互设计”,带你从另一个视角看万物互联的人机交互,让好设计同时强化科技和人性最好的一面。

发布于 2020-05-11 12:27