Size: a a a

Распознавание речи

2019 September 15

A

Alexander in Распознавание речи
Vlad
И ещё мы тут немного ошиблись в подсчёте wer для espnet и kaldi, и пересчитали его заново на нашем тестовом датасете из телефонии на 1 час. Вот результаты, если кому интересно (гугл для эталона):
Google Speech API
WER = 0.33,   SER = 0.911
С парсером чисел
WER = 0.31,   SER = 0.911
———
Kaldi
WER = 0.44, SER = 0.911
———
ESPnet
WER = 0.22, SER = 0.75

В итоге готовая модель для espnet, обученная на датасете open_stt (там около 7000 часов аудио разного качества) показывает лучшую точность работы, чем другие. Мы пробовали обучать espnet отдельно только на телефонии (там около 20 часов), но результат был хуже: wer около 37-38%
А вы делаете решение для какой-то коммерческой компании?
источник

V

Vlad in Распознавание речи
Примерно да, работаю штатным инженером по машинному обучению
источник

A

Alexander in Распознавание речи
А какой, если не секрет?
источник

V

Vlad in Распознавание речи
Я думаю руководство не одобрит, если я это скажу)
источник

A

Alexander in Распознавание речи
Почему?
источник

V

Vlad in Распознавание речи
Конкуренция, все дела
источник

A

Alexander in Распознавание речи
Т.е. т.к. вы используете cc-nc-by (можно использовать для некоммерческих решений) датасет, и не платите авторам, но открыто говорите об этом?
Там авторы открыли в т.ч. страницу для сбора донатов - и пока вообще только 1 кто-то закинул

В принципе это ожидаемо конечно
источник

V

Vlad in Распознавание речи
С чего вы решили, что этот проект запущен в принципе?
источник

V

Vlad in Распознавание речи
Мы используем google speech api для прода
источник

V

Vlad in Распознавание речи
т.к. это единственное, что держит большие нагрузки и даёт стабильную ошибку в примерно 30-35%
источник

V

Vlad in Распознавание речи
А это всё пока только тесты, к тому же мы связывались с самими разработчиками (как espnet, так и авторов клонирования голоса)
источник

V

Vlad in Распознавание речи
Если результаты будут такие, которые не стыдно пустить в прод на замену гуглу - с радостью задонатим авторам
источник

V

Vlad in Распознавание речи
Но пока что доказать руководству целесообразность занесения денег этим ребятам я не могу, ибо нет отчётов о том, что в ходе такого и такого теста на клиентах были результаты лучше, чем сейчас)
источник

A

Alexander in Распознавание речи
Интересная у вас логика конечно
источник

A

Alexander in Распознавание речи
Пока вы не сделаете лучше гугла, зп вам тоже не платят?)
источник

V

Vlad in Распознавание речи
У espnet на данный момент конечно wer хороший, но время обработки 1 запроса с аудио 3 сек на gpu 1070 1.8 секунды
источник

A

Alexander in Распознавание речи
Я про датасет
Не про фреймворки
источник

V

Vlad in Распознавание речи
И нет потоковой работы с аудио
источник

V

Vlad in Распознавание речи
ааа
источник

V

Vlad in Распознавание речи
Окей, а кому вообще по вашему донатить, если данные собирали одни люди, а обучали другие?))
источник