Size: a a a

Распознавание речи

2019 September 02

t2

tonko 22 in Распознавание речи
Aλexander Λaptev
В моей голове не складываются вместе понятия "общедоступная языковая модель" и "Google Speech API"
Да, кажется слово "языковых" тут лишнее
источник

V

Vlad in Распознавание речи
Спасибо, буду знать)
источник

Aλexander Λaptev in Распознавание речи
@Vladis_kl тогда можете и ЦРТ-шное облако попробовать.
источник

Aλexander Λaptev in Распознавание речи
Где-то в истории была ссылка
источник

V

Vlad in Распознавание речи
А у них есть бесплатный лимит?
источник

V

Vlad in Распознавание речи
Гугл взяли, т.к. он на проде сейчас используется
источник

V

Vlad in Распознавание речи
Ну и относительно нормально работает по конверсии звонков, т.е. его ошибки распознавания не особо влияют на понимание абонента
источник

Aλexander Λaptev in Распознавание речи
Vlad
А у них есть бесплатный лимит?
Какой-то лимит есть, но точно не помню.
источник

Aλexander Λaptev in Распознавание речи
В облаке у ЦРТ есть https://cp.speechpro.com/home
источник

AZ

Al Zatv in Распознавание речи
Vlad
Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):

1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%

2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%

3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%
Вай-вай-вай, после таких подписей в таких табличках в некоторых кругах ходят мнения, что "kaldi распознает речь хуже tensorflow":)
источник

AZ

Al Zatv in Распознавание речи
Это,кстати, приведенная дословно цитата.
источник

AZ

Al Zatv in Распознавание речи
Aλexander Λaptev
Какой-то лимит есть, но точно не помню.
Кажись,8 часов.
источник

V

Vlad in Распознавание речи
Al Zatv
Вай-вай-вай, после таких подписей в таких табличках в некоторых кругах ходят мнения, что "kaldi распознает речь хуже tensorflow":)
Ахахахахах, штаа) какая "интересная" фраза))
источник

AS

Andrew Stepanov in Распознавание речи
Vlad
Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):

1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%

2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%

3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%
@Vladis_kl протестите нас тоже, если не сложно https://github.com/TinkoffCreditSystems/tinkoff-speech-api-examples
Ключ можно получить на https://voicekit.tinkoff.ru
источник

V

Vlad in Распознавание речи
Andrew Stepanov
@Vladis_kl протестите нас тоже, если не сложно https://github.com/TinkoffCreditSystems/tinkoff-speech-api-examples
Ключ можно получить на https://voicekit.tinkoff.ru
К сожалению, обещать не могу, но постараемся :) Т.к. сейчас все силы и ресурсы брошены на обучение espnet на датасете asr_public_phone_calls1
источник
2019 September 04

AO

Andrei Obyortyshev in Распознавание речи
Никто дел с https://github.com/gooofy/kaldi-adapt-lm не имел? Собрал модель поверх 0.6, а на выходе имею:

ERROR (online2-tcp-nnet3-decode-faster[5.5.20~1-5cd5]:DecodableNnetLoopedOnlineBase():decodable-online-looped.cc:46) Input feature dimension mismatch: got 13 but network expects 20

Не могу понять, где что-то пошло не так.
источник

NS

Nikolay Shmyrev in Распознавание речи
mfcc.conf не тот
источник

AO

Andrei Obyortyshev in Распознавание речи
Из 0.6 подтягивался по идее.

—use-energy=false
—sample-frequency=8000
—num-mel-bins=20
—num-ceps=20
—low-freq=100
—high-freq=3700
источник

AO

Andrei Obyortyshev in Распознавание речи
А. Оказалось поправил не все пути. Взлетело, спасибо.
источник
2019 September 05

MW

Mohammad Wolf in Распознавание речи
Vlad
Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):

1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%

2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%

3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%
Че такое ser и wer?
источник