科大讯飞,你的AI同传操(qi)作(zha)能更风骚一点吗

科大讯飞,你的AI同传操(qi)作(zha)能更风骚一点吗

未经作者授权,任何人与机构不得转载或引用文章内容,作者保留追求法律责任的权利。


2018.09.24

更新:今天科大讯飞联系我进行了解释澄清,文章链接是

今天讯飞给我打了个电话 - Bell Wang的文章 - 知乎 zhuanlan.zhihu.com/p/45

内容如下:

这篇文章因为是整理语音交流内容,可能会比较乱。如果有人觉得太长不愿意看,可以跳过中间直奔结论。

昨天,我得知科大讯飞想要和我进行沟通,将事情来龙去脉解释清楚并澄清一些误会。我觉得这样做确实会让事情清楚一些,比两边隔空喊话要高效很多,于是就答应了。

今天,我就与科大讯飞消费者事业群副总裁,听见科技总经理王玮女士进行了语音沟通。整个交流持续了大约一小时十分钟。我们双方都留了录音。

一开始我先解释了下在文章中我的一些激烈用词(囧),确实是情绪有些激动,比较不好意思,然后我就提出了在我文章中主要的几个问题。一个就是现场字幕的问题,事先我并没有得知有讯飞参与,也没有人征求我的同意,并且只有“讯飞听见”几个字还是很容易让观众误解为是讯飞提供的字幕翻译,也会让同传译员误解,感觉受到不尊重。二是直播的同传音轨使用tts语音合成而不是直接用同传译员的翻译音轨,同时知领的直播介绍中的文字说有“智能翻译”功能,对观众非常有误导性,有欺骗嫌疑。同时还提到了我后来想到的一点,就是讯飞作为这样一个大影响力的公司,是不是在营销和公关上控制不足,导致很多误会。

王女士先解释了第一点。讯飞听见之前也在几次比较有影响力的会议上有所使用,应该已经有不少人熟知,而这次的会议其实有很多的承办方,并且有会务公司和翻译公司的参与。王女士表示科大讯飞在多次的筹备会议中明确要求要通知到所有相关方会有讯飞听见的字幕技术应用和展示,是不是哪一环沟通出现了问题。这一点上,我倒确实后来听相关方说,跟我确定会议相对晚,据说其他译员老师被通知了,可能是因为我确定晚漏了我一个。那这点上我觉得这个解释可以接受,但遗留的问题就是,这种情况下造成的误解不仅针对译员,在现场关注会议的听众,新闻报道的受众,以及网上直播的观众都可能会误解为翻译是讯飞提供,因为不是所有人都熟悉讯飞听见。

第二点第三点牵涉的问题就比较复杂。王女士解释说其实他们考虑过如果用人工语音来替代翻译的语音确实会比较奇怪,(同时也向我提问,是否以后遇到这种情况可以寻求同传译员的许可,打出老师的名字或贴上老师的照片,或至少用文字标识表明有同传译员在翻译。这一点后面我们进行了讨论。)但最终结果是经过讨论,讯飞还是提供了tts的技术支持,目的是为以后可以实现的多语言平台进行演练(这里王女士解释了,比如一共有五种语言的与会者,可能一个小语种找不到翻译,那么可以借由其他译员翻译出来的文本作为中心语言,然后文本翻译到该小语种,再人工语音输出)。所以讯飞就提供了技术支持,但后续没有进行足够的把控,造成了译员感受到了侵犯,确实考虑不周。

我就进一步提出,后续没有控制,如果真是本身没有这种意愿,最终出现这种情况,那其实就是讯飞的营销或是公关部门工作问题,如果控制得好些,完全可以在同传语音保留的情况下增加第三个tts的频道,在对比下更能展示技术。王女士承认这方面确实本应做得更好。

然后我跟着说,讯飞确实官方多次声明提到过没有取代人工同传的意思,那么基于这种考虑,营销和公关部门应该是在媒体夸大炒作之后尽快进行辟谣和澄清,而不是等到夸大宣传激起激烈反弹后再应激式地去救火,还会让人感觉是讯飞默许了这种夸大宣传,客观上还从中得到了好处。而且舆论先受到了媒体炒作的影响(同时讯飞澄清不够),觉得讯飞的AI技术已经无所不能,远超讯飞自己的定位,结果这次出了这样的一个事件,很可能很多人态度又会180度转弯,瞬间觉得讯飞一无是处。王女士回答说确实作为一个科技公司在这方面缺乏经验,这次也是第一次他们遇到这么大的舆情事件,让他们感觉也很被动。而且现在社会中舆论容易被媒体影响,信任危机让人们很容易由于一次事件就完全失去信任。我就提到,讯飞作为多种程度上承载很多中国人希望的公司,如果不能做到对于这样的社会现状有准确的判断,进行前瞻性的准备而不是放任事情直到出事再救火,那么工作肯定是有问题的。王女士承认这是一次教训,事先的管控确实出现了问题,以后在面对可能的类似事件之前也需要进行预防性澄清。

至此第二点和第三点解释完毕。

在结尾我们还做了更多沟通。我提到在同传的业界中,(不论是否由讯飞导致)曾经出现过不止一次译员“被AI”,感觉到被免费利用,也有讲者在会上讲类似“感谢这次的人工智能同传,相信人类很快就要被取代”的话。王女士这时主动提出,她也听到过同传界或翻译公司的建议,是否应该在以后牵涉到讯飞提供技术的会议中,要与译员沟通,得到知情同意并签订协议。我说确实需要这个机制,而且协议需要分为两部分,第一部分是对于讯飞在会场提供的技术支持进行解释,包括呈现方式和运用的技术和其用途,需要得到译员的同意,并且需要在会场明确进行标识,说明翻译由译员提供;第二部分是关于译员翻译出来的内容,如果需要后续使用该内容(如用于语料积累或模型训练等),必须得到译员同意,否则不可使用。也就是说,一定要规范。王女士说,讯飞将探索这种机制的建立,并尽快执行。

另外,因为这次影响很大,很多我的同行都各自发声,有相对些激进,有些相对克制,我建议讯飞可以找机会跟同传界多进行正式的沟通,争取解除不必要的误会,寻求真正合作的可能。


总结:

我觉得科大讯飞的王玮女士展现出了诚意,沟通过程中一直友好理性。这次的解释是让我能够接受的,从我的角度看,可以认为讯飞没有主动造假的行为,但是讯飞的营销和公关存在比较大的问题,客观上放任了媒体的过分宣传,导致了各方的误会。

讯飞表示在以后的工作中需要更有前瞻性,在营销和公关的把控上必须严格,要在发现媒体过度宣传的时候就尽早进行澄清,并且在以后可能的技术呈现过程中充分做好标识,避免误会。

最后我们进行了更多交流,我提出建议,讯飞在未来与译员可能合作时,需要得到译员的知情同意,并签订协议,而且需要应用译员知识产权的翻译内容时,也需要得到许可,否则不可使用。讯飞承诺将尽快探索这一机制并执行。并且,这次事件激发了很多来自业界的讨论,我也提出希望讯飞能主动进行联系沟通进行澄清。

最后补充几句题外话:

本身我写前一篇文章的时候,考虑得也十分简单,就是感觉受到了不公的待遇,要将自己的经历写出来。而且当时多少情绪也比较激动,有些措辞比较激烈。结果后来自然也被解读了,还有人说我是“带着任务来的”。之后事情影响越来越大,各个媒体,甚至外媒都开始报道以及引用我的文章。不仅如此,业内的朋友们也开始在我身上寄托很多期望,希望维护合理的权利和诉求。这时我才意识到,发声一定要谨慎,即使我描述了事情的经过,但几句不谨慎的话还是会引起麻烦。于是我决定不再评论回复(看都不看了,免得心烦),也拒绝了所有媒体的采访请求。这里还是再说一遍,我从未委托任何人代替我发声,我自己说的也仅仅代表我自己,我也没有权力代表同传行业,我只能从自己的角度去聆听,并得出自己的结论。但这次我觉得最有价值的还是结尾的讨论。澄清事件解释误会都只是对过去的总结,关键还是在于事件能否对未来有积极的影响。如果这次事件真的能建立事先沟通机制,保护好译员的权利,规范化知识产权的使用,并且能让大家理性看待AI技术,不要不理性地拔高或贬低,那我觉得这次事件就不是一次闹剧,而是一次真正产生价值的事件。


这次应该还是会不看评论不回复。

—————————————————————————————————

2018.9.21

修改:视频进行了修改。不再回复评论


2018.9.20

今天一早来到国际会议中心,本以为就是日常做会的一天,没想到被深深恶心了一把。


刚箱子里坐下,就听说要直播。我想,哦好吧,反正不是第一次。我们收拾收拾就准备开会了。

第一位教授是位日本教授,英语非常的酸爽。因为要直播嘛,我们肯定比平时更紧绷一些,这时我就注意到两边大屏幕下有实时字幕。

而且赫然看到“讯飞听见”四个大字。我心里就有点烦。之前讯飞炒得最凶的时候我没怎么说话,只是转了转同行“被AI”的朋友圈,心想哪天我要是遇到这种一定搞死他们。结果没想到他们事前不和我说当场给我来这套突然袭击。

然后我又仔细审视了一下字幕

嗯,看来不太听得懂日本教授的英语,哦应该可以说是胡话连篇了。再看了看左边

这个完全就是语音识别的我搭档的输出啊,不然“就是”这种词怎么会出现在译文里呢?这种词是我们顺句驱动时用于联系语句用的。而且当翻译到说分析“步态”的时候,上面显示“不太”,在我翻译“Davos Forum”的时候,上面显示“Devils Forum”,完全和源语言内容对不上啊,就自然不可能是翻译了。

到这里我心里就很不爽了。因为从观众的角度来看,右边有英语识别(虽然经常不通),左边有译文(虽然经常跟右边对不上),加上“讯飞听见”几个大字,那肯定是科大讯飞牛逼的AI翻译啊!而且我甚至能脑补出科大讯飞被戳穿后的辩词:“我们这次使用的产品是讯飞听见,识别同传的翻译打在屏幕上方便听众,并无意冒充AI同传,对恶意造谣者,我们保留诉诸法律的权力”之类的,感觉真的无言以对。


但是会议毕竟在进行,我们也只能吃到苍蝇咽下去默默忍着好好翻译。其实过程中我也真考虑过得空的时候在话筒里说“本次翻译由同传译员王xx提供”之类的,但最终想想还是算了,到时候人家倒打一耙说其实很尊重同传,我这么一来是给科大讯飞泼脏水,被害妄想,人家根本没这个意思,那就更恶心了。想到这里我就觉得还是算了,就好好翻完就得了。


然后好戏开始是在下午。我在翻译一轮换下来之后得知,说这个会在知领有直播,里面有同传。但是!里面的声音是机器人,读的就是翻译被讯飞识别转化成的文本!!

我看了这个气得汗毛都立起来了,这就是赤裸裸的欺骗啊!明明就是我们输出的翻译内容,不给我们原音放出去,一定要把语音识别的文本(还各种错误)用机器人读?然后我们同传农药群的小伙伴发现了这个:

科大讯飞智能语音技术,“智能翻译”了解一下

是的没错,讯飞号称这是他们的智能翻译。这时候我真的已经忍不了了,于是我就电脑打开了直播页,放在外面,自己用手机在翻译间里录下现场画面和翻译,然后出来拍电脑,打开音量。结果,由于直播有延时,完美拍到了科大讯飞复读机,哦不对,朗读机的表现。

注:这里的视频进行了更换,第一段视频是原来的第一段视频截取机器语音部分;第二段视频截取机器语音部分价值不大,我就放上了一段新视频,依然只有机器语音部分。

https://www.zhihu.com/video/1026585668213886976

这里首先是讲者说可以挖掘数据,放入图表,翻译内容是"I can mine this data and put it in charts(我可以挖掘数据并放入图表) to represent the status of the machine, we call it initial monitoring(以此表示机器的状态,我们称之为初步监控)",但讯飞识别成了"minus data(减数据?)"和"put it in charge(让它负责?)"甚至是“college condition monitoring(大学状态监控??)”,我们看直播流中的同传毫不犹豫地按照错误的识别文本读了出来。很显然,mine this读音接近minus,put it in charts接近put it in charge,然后大概是call it给识别成了college。这些内容语音很接近,但是意思完全对不上。如果真是翻译,那对比下源语言内容,minus、in charge和college从何而来?

https://www.zhihu.com/video/1026587582792110080

这段视频,问题主要是15秒开始,本身译文应该是"we give the data and try to analyze them and try to figure out the issues within the machine.(我们给予数据,分析它们,并努力找到机器的问题)"但是是机器识别成了“analyze some(分析一些?)”。这自然也很清楚,them发音是接近some的,但是把some放在这里是完全语义不通。所以显然这个机器语音是在朗读文稿而不是进行翻译。

收集完了这些证据我第一时间就开始写这篇文章,要揭露一下所谓智能翻译的真相。而且我要郑重说一下,科大讯飞事前没有告知有语音识别的字幕,没有告知直播的同传是机器朗读同传经过识别出来的文稿,更没有征得同意就冒名使用了译员翻译成果,这种行为,不知道有没有哪位懂得法律的朋友告诉我算不算侵犯知识产权呢。当然我对于我国目前的法制,尤其在知识产权方面真的不是很自信,应该不会有后续的追责,但我觉得必须要在各个社交媒体平台上把这件事亮出来,让大家看看。这次会议是免费向公众直播,不存在保密问题,也正好是一个机会让大家见识一下科大讯飞的实力(当然了,万一产生了点影响还能见识下科大讯飞的公关能力)。

也许有一天AI真的能做到理解自然语言,也许有一天我们这个职业会失业,但绝不是现在;真正突破性的技术也不可能由一个没有操守的公司研发出来。技术是无罪的,但以技术为名吸引资本的目的会不会导致虚假包装和营销呢?呵呵呵呵。

编辑于 2018-09-25

文章被以下专栏收录

    同传一小时能挣上万?同传都是(秃顶)大神?也许您会有类似的误会,这里的一些真实纪录、日常点滴和吐槽或许能让您更了解同传这个神秘而略为封闭的行业。