Size: a a a

Распознавание речи

2019 August 31

NS

Nikolay Shmyrev in Распознавание речи
источник

NS

Nikolay Shmyrev in Распознавание речи
лучше kaldi-ru видимо
источник

V

Vlad in Распознавание речи
О, шикарно
Мы на днях проверим и сравним эту модель с калди)

Она прям вот очень вовремя появилась, ибо до этого пытались на датасете voxforge_ru обучить и точность выше 20-30% не росла вот никак вообще
источник

NS

Nikolay Shmyrev in Распознавание речи
Держите нас в курсе 😉
источник

V

Vlad in Распознавание речи
А никто больше не пробовал espnet обучить русскому языку?
источник

V

Vlad in Распознавание речи
https://github.com/akreal/espnet/tree/ru_open_stt/egs/voxforge/asr1

Мы пробовали с этими параметрами, но в оригинале там указан итальянский язык, с ним обучается очень хорошо, но на русском точность выше 30% не поднимается. Пробовали архитектуры из файла results - лучше не становится
источник

AZ

Al Zatv in Распознавание речи
поожди-ка,если я правильно помню, воксфорж это база из порядка 30 часов диктовки? примерно все,что угодно будет лучше,чем модель на вокс форж,просто из-за нехватки данных.
источник

t2

tonko 22 in Распознавание речи
Vlad
А никто больше не пробовал espnet обучить русскому языку?
Я сейчас обучаю
источник

t2

tonko 22 in Распознавание речи
Пока что делаю бенчмарк без аугментаций с иными параметрами
источник

t2

tonko 22 in Распознавание речи
Под аудиокниги обучилась практически идеально уже со второй эпохи, а вот телефония и радио до сих пор хромают, около 0.3-0.4 cer на худших из данных
источник

t2

tonko 22 in Распознавание речи
lm-составляющая видно что еще не дообучена
источник

t2

tonko 22 in Распознавание речи
Но вообще кажется что архитектура VGGBLSTMP с такими параметрами слишком сложная, можно добиться лучшего качества за меньшее количество ресурсов за счет аугментаций
источник

t2

tonko 22 in Распознавание речи
Бенчмарки покажут
источник

V

Vlad in Распознавание речи
Al Zatv
поожди-ка,если я правильно помню, воксфорж это база из порядка 30 часов диктовки? примерно все,что угодно будет лучше,чем модель на вокс форж,просто из-за нехватки данных.
Да, это телефония
За неимением лучшей базы приходится это использовать, так как распознавание как раз и делается именно под телефонию
источник

AZ

Al Zatv in Распознавание речи
посмотрел, да,это то,что я думаю. В этой базе даже есть мой скромный вклад,несколько записей с нескольких устройств:)
Это 20 часов,и это не телефония. Обычно это записи с микрофонов ноутбуков. Этого совсем недостаточно. Нужно набрать сотню часов , чтобы калди дала что-то приятное. И,думаю, под тысячу часов для end2end-ов. Как вариант, можно взять из openstt, если правовой статус "украдено" допустим для вашей деятельности.
источник

V

Vlad in Распознавание речи
А в open_stt разве есть нормально размеченные записи с телефонии? Те, что есть, имеют точность разметки 70%
источник

AZ

Al Zatv in Распознавание речи
ну это лучше,чем ничего. а воксфорж это ближе к "ничего".
источник

t2

tonko 22 in Распознавание речи
Vlad
А в open_stt разве есть нормально размеченные записи с телефонии? Те, что есть, имеют точность разметки 70%
Ну они вычистили особенно плохие, я прям плохих не встречал
источник

V

Vlad in Распознавание речи
Хм, спасибо за информацию)
Тогда лучше их использовать

Но, я правильно понимаю, что при этом точности выше 70% не добиться? Т.к. данные изначально имеют такую точность, то даже если на валидации на этих же данных нейронка покажет 100% точности, то по факту она такой не будет
источник

t2

tonko 22 in Распознавание речи
Недавно выкладывались результаты на отдельных val сетах, там 81
источник