首发于极光日报
Google Voice AI:人声朗读还是机器发声,你认出来算我输

Google Voice AI:人声朗读还是机器发声,你认出来算我输

简评:让我想起「雄兔脚扑朔,雌兔眼迷离,双兔傍地走,安能辨我是雄雌」。文末有个小测试,看看大家能不能听出来哪个是人声,哪个是机器声。反正我听了十多遍吧,没猜出来。

Humans have officially given their voice to machines.

谷歌这个月发变了一篇研究论文[1],详细的介绍了一个名为「Tacotron 2」的文本 - 语音系统,该系统识别文本并朗读,其声音可以接近人类的发声。

该系统是谷歌官方的第二代技术,它由两个深度神经网络组成。

  • 第一个网络将文本翻译成频谱图[2],用一种可视的方式来表示音频随着时间的推移变化。
  • 第二个网络将频谱图输入波形图(WaveNet)[3],这是一个来 Alphabet 的 AI 深度实验室 DeepMind 的系统,它可以读取图表,并相应地生成相应的音频元素。

下面我们看看 Tacotron 2 的一些朗读案例。


Tacotron 2 在一些超出范围或者复杂的词汇上表现良好(比如 auto-encoder 复合词)

“Generative adversarial network or variational auto-encoder.”

https://www.zhihu.com/video/929747472973099008

“Basilar membrane and otolaryngology are not auto-correlations.”

https://www.zhihu.com/video/929748567392878592

Tacotron 2 能够理解语义并调整朗读节奏(注意前两个单词的读音)

“He has read the whole thing.”

https://www.zhihu.com/video/929749050224336896

“Don't desert me here in the desert!”

https://www.zhihu.com/video/929749554262294528

Tacotron 2 可以自主修正错误的拼写并朗读:

“Thisss isrealy awhsome.”

https://www.zhihu.com/video/929751012097449984

因为知乎文章只允许上传 10 个视频,所以我就不把所有的案例都上传了,只写一下文字的描述,有兴趣可以在 Google 的官方页面看到案例:Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"

Tacotron 2 还可以:

  • 判断标点符号并修改语气
  • 判断大写的单词并加重语气
  • 当使用反问时,可以改变语气
  • 绕口令非常NB
https://www.zhihu.com/video/929757302769065984

好的,重头戏来了!下面让我们来判断一下哪个是人读的,哪个是机器读的。

  • 1-1 “She earned a doctorate in sociology at Columbia University.”
https://www.zhihu.com/video/929752809834807296
  • 1-2 “She earned a doctorate in sociology at Columbia University.”
https://www.zhihu.com/video/929753512707973120
  • 2-1 “George Washington was the first President of the United States.”
https://www.zhihu.com/video/929753765662220288
  • 2-2 “George Washington was the first President of the United States.”
https://www.zhihu.com/video/929753848873025536

注释:


以上。

文章部分文字:Google’s voice-generating AI is now indistinguishable from humans
文章音频出自:Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"

园长:在英文朗读这块,Google Voice-Generating AI 做的很不错,不知道中文什么时候能够达到这样的水平。正如文章开头的第一句话,人类已经正式授予机器语言的能力了。


极光日报,极光开发者旗下媒体。

每天导读三篇英文技术文章。


明天见。

编辑于 2017-12-28 17:09