Size: a a a

Распознавание речи

2019 August 31

t2

tonko 22 in Распознавание речи
Лучше всего конечно собственную валидацию использовать если таковая есть
источник

AZ

Al Zatv in Распознавание речи
правильный ответ — "скорее всего, твоя система будет хуже,чем та,которой делалась разметка (но это не точно)". Остальное трудно предсказать. Скажем, трейним на сложных данных с разметкой качеством 70%, тестим на чем-то легком — получим больше 70% (а хоть и на диктовке да/нет — близко к сотне будет).
источник

t2

tonko 22 in Распознавание речи
Al Zatv
правильный ответ — "скорее всего, твоя система будет хуже,чем та,которой делалась разметка (но это не точно)". Остальное трудно предсказать. Скажем, трейним на сложных данных с разметкой качеством 70%, тестим на чем-то легком — получим больше 70% (а хоть и на диктовке да/нет — близко к сотне будет).
Все верно, я лично на аугментации надеюсь
источник

AZ

Al Zatv in Распознавание речи
тоже верно,может так и удастся получить качество выше,чем у размечалки. потом переразметить и снова обучить:) (но это вряд ли поможет:))
источник

V

Vlad in Распознавание речи
У нас есть вручную размеченный небольшой датасет, около 2 часов, гугловское распознавание там дало точность около 75%, готовая модель для kaldi - 64% (и это сравнивались только основы слов, а не побуквенно)
источник

V

Vlad in Распознавание речи
А что за аугментации?)
источник

KY

Kim Young in Распознавание речи
Vlad
А что за аугментации?)
Аугментация - "раздутие" уже имеющегося датасета для увеличения количества обучающих данных. То есть берем ситуацию: есть 2 картинки кошки, но этого мало, поэтому применяем аугментацию, растягивая изображения, изменение масштаба и так далее
источник

V

Vlad in Распознавание речи
Ааа, вот оно что
Я такое делал для задачи классификации пола и эмоций человека по его речи, только не знал, что оно так называется))
Просто искусственное расширение данных/датасета
источник

V

Vlad in Распознавание речи
Спасибо за объяснение)
источник

t2

tonko 22 in Распознавание речи
Kim Young
Аугментация - "раздутие" уже имеющегося датасета для увеличения количества обучающих данных. То есть берем ситуацию: есть 2 картинки кошки, но этого мало, поэтому применяем аугментацию, растягивая изображения, изменение масштаба и так далее
Не совсем корректно
источник

t2

tonko 22 in Распознавание речи
Раздувать в данном случае вовсе необязательно, основная идея в том чтобы не оставить модели простого выхода в обучении на простых данны снизив качество записей аудиокниг (методы аугментации и зашумления рекомндую отдельно погуглить - specaugment, изменение скорости, питча и т.п.) и других дикторских начиток. При этом оригинальные чистые записи я планирую заменить аугментированными а не добавить их к ним.
источник

t2

tonko 22 in Распознавание речи
Обычно аугментации и правда используют для раздутия датасета и повышкния генерализации моделей, но к самому определению аугментаций это не относится
источник
2019 September 02

NS

Nikolay Shmyrev in Распознавание речи
источник

NS

Nikolay Shmyrev in Распознавание речи
26 ноября 2019
Москва
источник

V

Vlad in Распознавание речи
Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):

1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%

2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%

3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%
источник

t2

tonko 22 in Распознавание речи
Думаю тут CER актуальнее сранивать, т.к. ESPnet не использует word-lm, скорее всего, как и гугл
источник

t2

tonko 22 in Распознавание речи
А сколько часов в тест-сете было?
источник

Aλexander Λaptev in Распознавание речи
Vlad
Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):

1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%

2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%

3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%
В моей голове не складываются вместе понятия "общедоступная языковая модель" и "Google Speech API"
источник

V

Vlad in Распознавание речи
1 час
источник

V

Vlad in Распознавание речи
Гугл там в качестве эталона)
источник