Size: a a a

Распознавание речи

2019 July 23

AS

Andrew Stepanov in Распознавание речи
Viacheslav Klimkov
неплохой выбор голоса. нравится
Спасибо. Это голос нашего голосового ассистента, публично будет другой набор голосов.
источник

VK

Viacheslav Klimkov in Распознавание речи
на 0.53 attention поломалось чтоли. и dataset похоже для unit-selection. одна и та же интонация сверху вниз
источник

AS

Anton Safin in Распознавание речи
@standy а когда уже дадите доступ потестировать? ;) А то новости появляются, и заявку мы давно оставили, аппетит уж разыгрался. )
источник
2019 July 24

AO

Andrei Obyortyshev in Распознавание речи
Ребят, а подскажите по адаптации языковой модели. Хочу чтобы, условно, некий сет команд типа "включи то-то", "открой это" распознавался kaldi более уверенно.

Я так понял, что нужно собрать модель из этого сета команд и прогнать с fst-шкой модели из закрепа с помощью, например, https://github.com/gooofy/kaldi-adapt-lm. Алгоритм такой, или я что-то упустил?
источник

NS

Nikolay Shmyrev in Распознавание речи
вроде того
источник

AO

Andrei Obyortyshev in Распознавание речи
Ок, спасибо.
источник

KY

Kim Young in Распознавание речи
Доброго времени суток всем. Вопрос о pocketsphinx в python. Собственно, pip install pocketsphinx и в бой. Посмотрел много ответов гугла на вопрос о keyphrase и везде написано, что при ключевой фразе, в данном случае активационной, нужно отключать *.lm. Задача сделать постоянное ожидание ключевой фразы, а после ее возникновения ожидать определенную команду с любым параметром (ограниченным словарем и процентом ошибки), то есть пример: "окей компьютер[фраза активации], найди[команда] значение слова[под-команда] рекогносцировка[произвольный параметр]", далее скрипт должен будет найти команду, ее подкоманду и параметр из полученной строчки. Соответственно для ключевого слова просто задается keyphrases.list, для команд создается словарик, а как потом получить произвольный параметр? Нельзя же динамически менять параметры pocketsphinx во время выполнения, чтобы подключить словарь и *.lm? Время инициализации стандартного словаря с фонетикой и *.lm без ключевой фразы примерно 25 сек, CPU отъедает примерно 20-40%. Вопрос как корректно сделать алгоритм под задачу?
источник

NS

Nikolay Shmyrev in Распознавание речи
Подслова добавить в модель языка. Неизвестные слова тяжело распознавать.
источник

KY

Kim Young in Распознавание речи
Nikolay Shmyrev
Подслова добавить в модель языка. Неизвестные слова тяжело распознавать.
Да даже если они есть в словаре(я там много слов не знаю, пока его читал 😃), вопрос именно о алгоритме. Как с ключевой фразой использовать стандартный словарь? То есть ожидать одну фразу "окей компьютер", после по упрощенному словарю с забитыми в него словами и JSGF определить команду и подкоманду, а далее включить всю мощь стандартной модели для определения произвольного параметра (но он будет ограничен размером словаря и точностью, но это не особо страшно)? (задача не совсем на поиграться, у сестры довольно плохое зрение, поэтому планировал в будущем прикручивать функционал по мере необходимости)
источник

KY

Kim Young in Распознавание речи
Kim Young
Да даже если они есть в словаре(я там много слов не знаю, пока его читал 😃), вопрос именно о алгоритме. Как с ключевой фразой использовать стандартный словарь? То есть ожидать одну фразу "окей компьютер", после по упрощенному словарю с забитыми в него словами и JSGF определить команду и подкоманду, а далее включить всю мощь стандартной модели для определения произвольного параметра (но он будет ограничен размером словаря и точностью, но это не особо страшно)? (задача не совсем на поиграться, у сестры довольно плохое зрение, поэтому планировал в будущем прикручивать функционал по мере необходимости)
Просто может быть я что-то упускаю, на всякий случай еще раз прочту официальный тутор
источник

AZ

Al Zatv in Распознавание речи
а произвольный параметр действительно произвольный? Просто если это число какое-то,то можно задать грамматику. Не знаю покетсфинкса, в других тулкитах это выглядело бы как создание грамматики,которая способна принимать именно твою фразу со всеми вариациями, компиляция этой грамматики,и распознавание. Компиляция грамматик может быть сделана очень шустрой, движок црт и нюанса компилят грамматику из десятков тысяч слов за доли секунды.
источник

AZ

Al Zatv in Распознавание речи
а,прочел внимательнее, это ж запрос к словарю. да, если нет заготовленного заранее списка слов, то это прям ресерч, с подсловами и всем таким.
источник

NS

Nikolay Shmyrev in Распознавание речи
Kim Young
Да даже если они есть в словаре(я там много слов не знаю, пока его читал 😃), вопрос именно о алгоритме. Как с ключевой фразой использовать стандартный словарь? То есть ожидать одну фразу "окей компьютер", после по упрощенному словарю с забитыми в него словами и JSGF определить команду и подкоманду, а далее включить всю мощь стандартной модели для определения произвольного параметра (но он будет ограничен размером словаря и точностью, но это не особо страшно)? (задача не совсем на поиграться, у сестры довольно плохое зрение, поэтому планировал в будущем прикручивать функционал по мере необходимости)
отдельно определять ключевую фразу, звук сохранять. Потом этот звук гнать на распознавалку с большим словарём.
источник
2019 July 25

KY

Kim Young in Распознавание речи
Nikolay Shmyrev
отдельно определять ключевую фразу, звук сохранять. Потом этот звук гнать на распознавалку с большим словарём.
А разве есть возможность распознавать аудио файл динамично? Документация подробная вроде, но вот примеры нормальные отсутствуют, как и особенности методов. Все туторы предлагают для распознавания файлов запускать сфинкс как новый процесс, что быстро работать будет только с правилом грамматики и маленьким словарем, а не с 1+ млн вариантов и 500000 слов
источник

V

Vlad in Распознавание речи
Kim Young
А разве есть возможность распознавать аудио файл динамично? Документация подробная вроде, но вот примеры нормальные отсутствуют, как и особенности методов. Все туторы предлагают для распознавания файлов запускать сфинкс как новый процесс, что быстро работать будет только с правилом грамматики и маленьким словарем, а не с 1+ млн вариантов и 500000 слов
Есть, просто делаете класс, где в конструкторе загружаете все данные, а потом в отдельном методе присылаете аудио для распознавания

Пример есть в моём чат боте с диплома: https://github.com/Desklop/Voice_ChatBot/blob/master/speech_to_text.py
источник

V

Vlad in Распознавание речи
Там используется обёртка для работы с pocketsphinx из python
источник

KY

Kim Young in Распознавание речи
Vlad
Есть, просто делаете класс, где в конструкторе загружаете все данные, а потом в отдельном методе присылаете аудио для распознавания

Пример есть в моём чат боте с диплома: https://github.com/Desklop/Voice_ChatBot/blob/master/speech_to_text.py
Ага, спасибо, посмотрю содержание позже
источник

NS

Nikolay Shmyrev in Распознавание речи
МТС на проводе "мы ищем человека, который-бы развивал направление синтеза речи", пишите, кому интересно.
источник
2019 July 26

V

Vlad in Распознавание речи
А локация какая?
источник

NS

Nikolay Shmyrev in Распознавание речи
Москва
источник