История синтезаторов речи: компьютерная эра🇯🇵Считается, что первая система для синтеза речи появилась в Японии. Её разработала команда Электротехнической лаборатории (ETL), которую основали еще в XIX веке. В 1956 году её сотрудники представили транзисторный компьютер ETL Mark III — одну из первых вычислительных систем со встроенной памятью. Свою работу в 1963 году инженеры начали с построения полимерной модели человеческого голосового тракта. На протяжении двух лет специалисты изучали происходящие в нем физические процессы — особое внимание они уделили роли носа в окраске речи. Собрав необходимые данные, они обратились к коллегам из Hitachi, которые помогли спроектировать аналоговый компьютер на основе лестничной логики. Он включал 71 операционный усилитель и 22 множителя, представлявшие собой резисторные сети с фотопроводниками и неоновыми лампами. Система подключалась к IBM 7090 с управляющим программным обеспечением на Fortran. Первое время синтезатор умел говорить только на японском. Но в 1967 году его адаптировали для работы с английским языком. Словарь машины включал полторы тысячи слов — этого было достаточно, чтобы читать детские сказки. Однако устройство все равно оставалось частично аналоговым.
📟Глава акустического отделения лаборатории ETL Эиичи Мацуи (Eiichi Matsui) в конце 60-х взял наработки своих коллег и спроектировал полностью цифровой синтезатор речи для компьютера IBM S/360. Для моделирования характеристик голосового тракта он использовал преобразование Фурье. Каждая секунда синтезированной речи требовала 20 секунд ее предварительной обработки. Исследования в этой области начали вести специалисты из Нагойского университета по новому методу речевого синтеза — линейному предсказанию. Он учитывает несколько меняющихся во времени параметров: период основного тона, среднюю громкость и коэффициенты, связанные с передаточной функцией речевого тракта. Подобные синтезаторы вычисляли необходимые параметры по оцифрованной речи, записывали их в память, а затем воспроизводили звуковые волны с помощью ЦАП. Система не требовала больших вычислительных мощностей, поэтому метод линейного предсказания быстро нашел применение во множестве систем распознавания речи.
🍕Одну из них запустили в Лаборатории искусственных языков открытой при Мичиганском государственном университете США. Устройство получило название Votrax и стало одним из первых полнофункциональных «голосовых протезов» в мире. В декабре 1974 года Дональд Шерман (Donald Sherman), у которого диагностировали синдром Мёбиуса (паралич мышц лица), использовал его для заказа пиццы по телефону. Беседа прошла не самым гладким образом — сотрудники пиццерии не знали, как реагировать на «робота». Синтез занимал время, и речь компьютера иногда перебивала собеседника. Поэтому в ходе первых нескольких попыток звонки Дональда сбрасывали. Но в итоге ему удалось объяснить, что он использует электронное устройство для коммуникации, и его заказ приняли.
🖨В 1976 году американский изобретатель Рэймонд Курцвейл (Raymond Kurzweil) представил миру свою «читающую машину». Коробка размером с напольный офисный принтер сканировала документы, распознавала их, и читала вслух. В том же году вышел «говорящий» калькулятор — LPC Speech+. Он был построен на базе первой коммерческой микросхемы со встроенным голосовым синтезатором. Еще два года спустя Texas Instruments выпустили Speak & Spell — детскую образовательную игрушку со встроенным речевым синтезатором. В память устройства было заложено 200 слов, которые дети часто неправильно произносят. Ребенок вводил слово на клавиатуре, а игрушка воспроизводила его. Продукт стал абсолютным хитом — его даже использовали музыканты в своих проектах. Голос Speak&Spell можно услышать на альбоме «Computer World» группы Kraftwerk. Speak & Spell, пусть и в обновленном виде, есть на прилавках и сегодня. В каком-то смысле гаджет был первым умным цифровым устройством. Его даже называют «праотцом» персональных компьютеров.