
Параллельно с этим показали Tacotron - расширение синтеза на WaveNet, позволяющего добавить в синтезируемые фразы акцент, интонации и прочее, “сняв” их с живого спикера. Помните Face2Face, где синтезировалось видео одного спикера, за счет другого? Вот это продолжение той же концепции. По моим прикидкам до общедоступной функции “ваше устройство будет говорить голосом любимого человека” остается 3-4 года.
https://research.googleblog.com/2018/03/expressive-speech-synthesis-with.html















