Size: a a a

Распознавание речи

2019 September 05

V

Vlad in Распознавание речи
Этого не говорили
Скорее всего такой прайс из-за того, что надо собирать и готовить данные под русский язык и плюс они скорее всего не хотят вообще сотрудничать, вот и заломили ценник
источник

V

Vlad in Распознавание речи
Мы для них мелковаты будем)) Да даже сбербанк какой тоже им вряд ли будет интересен
источник

VV

Vlad Vinogradov in Распознавание речи
Vlad
Мы для них мелковаты будем)) Да даже сбербанк какой тоже им вряд ли будет интересен
А кто вы, простите? :)
источник

V

Vlad in Распознавание речи
Некоторая компания, которая занимается разработкой чат ботов (как голосовых, так и непосредственно в мессенджерах/чатах) в основном для call-центров пока что)
источник
2019 September 06

AO

Andrei Obyortyshev in Распознавание речи
Не понимаю как так получается, что в 0.6 есть слово, например "автограф", но при этом: "phone "f" is not in {, non}silence.txt"
И таких фонем несколько. Как это работает?
источник

NS

Nikolay Shmyrev in Распознавание речи
nonsilence.txt неправильно сделан
источник

NS

Nikolay Shmyrev in Распознавание речи
исходный словарь видимо не тот, в моем nonsilence есть f
источник

AO

Andrei Obyortyshev in Распознавание речи
То есть акустика их возвращает, а здесь мы сами описываем то, что ожидает языковая модель?
источник

NS

Nikolay Shmyrev in Распознавание речи
Ну можно и так считать. На самом деле просто скрипты неправильно работают.
источник

NS

Nikolay Shmyrev in Распознавание речи
вот такой должен быть nonsilence
источник

AO

Andrei Obyortyshev in Распознавание речи
Понятно. Скрипты скриптами, просто прояснил для понимания. Спасибо!
источник
2019 September 12

NS

Nikolay Shmyrev in Распознавание речи
Specom 2020 will be in SPB

http://www.specom.nw.ru/2020
источник
2019 September 15

V

Vlad in Распознавание речи
В тему клонирования голоса по 5-7 секундам речи человека: я выше скидывал статью с хабра на эту тему https://habr.com/ru/post/465941/ в ней автор выложил дообученную на русском языке английскую модель в открытый доступ. Я её запустил, протестил, в итоге: не каждый голос копируется очень хорошо, плюс очень часто синтезатор тупо глотает слова или окончания, ещё большие проблемы с интонацией и ударениями, а иногда даже в прямом смысле английский акцент появляется))
источник

V

Vlad in Распознавание речи
Есть у кого мысли, как можно побороть эти проблемы?

В частности сейчас очень интересно то, какую фразу лучше всего надиктовывать на вход, что бы получить корректный синтез. Т.к. если на вход подать одну из фраз в обучающей выборке (там в репо пример есть), то нормально синтезируется почти любой текст

Вероятно, фраза должна содержать все возможные сочетания фонем русского языка, но я в этом не уверен, и если это так - то где такую найти)
источник

V

Vlad in Распознавание речи
И ещё мы тут немного ошиблись в подсчёте wer для espnet и kaldi, и пересчитали его заново на нашем тестовом датасете из телефонии на 1 час. Вот результаты, если кому интересно (гугл для эталона):
Google Speech API
WER = 0.33,   SER = 0.911
С парсером чисел
WER = 0.31,   SER = 0.911
———
Kaldi
WER = 0.44, SER = 0.911
———
ESPnet
WER = 0.22, SER = 0.75

В итоге готовая модель для espnet, обученная на датасете open_stt (там около 7000 часов аудио разного качества) показывает лучшую точность работы, чем другие. Мы пробовали обучать espnet отдельно только на телефонии (там около 20 часов), но результат был хуже: wer около 37-38%
источник

NS

Nikolay Shmyrev in Распознавание речи
Интересный результат, но насчет 37% на 20 часах что-то не верится. и 22% тоже смущают.
источник

V

Vlad in Распознавание речи
А чем смущают?

37% - т.к. изначально у нас было 2 часа тестового датасета из телефонии, мы 1 час докинули к обучающей выборке, а второй оставили для валидации
источник

NS

Nikolay Shmyrev in Распознавание речи
Ну если люди пересекаются, то может быть.
источник

V

Vlad in Распознавание речи
Но готовая модель то точно никак не персекается с нашим датасетом
источник

V

Vlad in Распознавание речи
Но на фоне других движков у ESPnet есть большой минус: он походу не умеет работать с потоковым аудио. Не могу найти инфу/примеры работы с микрофоном в их репо именно в режиме потока (например, как это сделано в pocketsphinx, где произносишь фразу и он по мере произношения её распознаёт)
источник