Телеграмм чат группы cmusphinx

Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):

1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%

2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%

3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%

Вай-вай-вай, после таких подписей в таких табличках в некоторых кругах ходят мнения, что "kaldi распознает речь хуже tensorflow":)

источник

19:25пожаловаться #10

AZ

Al Zatv in Распознавание речи

Это,кстати, приведенная дословно цитата.

источник

19:27пожаловаться #11

AZ

Al Zatv in Распознавание речи

Aλexander Λaptev

Какой-то лимит есть, но точно не помню.

Кажись,8 часов.

источник

19:33пожаловаться #12

V

Vlad in Распознавание речи

Al Zatv

Вай-вай-вай, после таких подписей в таких табличках в некоторых кругах ходят мнения, что "kaldi распознает речь хуже tensorflow":)

Ахахахахах, штаа) какая "интересная" фраза))

источник

19:42пожаловаться #13

AS

Andrew Stepanov in Распознавание речи

Vlad

Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):

1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%

2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%

3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%

@Vladis_kl протестите нас тоже, если не сложно https://github.com/TinkoffCreditSystems/tinkoff-speech-api-examples
Ключ можно получить на https://voicekit.tinkoff.ru

источник

20:10пожаловаться #14

V

Vlad in Распознавание речи

Andrew Stepanov

@Vladis_kl протестите нас тоже, если не сложно https://github.com/TinkoffCreditSystems/tinkoff-speech-api-examples
Ключ можно получить на https://voicekit.tinkoff.ru

К сожалению, обещать не могу, но постараемся :) Т.к. сейчас все силы и ресурсы брошены на обучение espnet на датасете asr_public_phone_calls1

источник

21:13пожаловаться #15

2019 September 04

AO

Andrei Obyortyshev in Распознавание речи

Никто дел с https://github.com/gooofy/kaldi-adapt-lm не имел? Собрал модель поверх 0.6, а на выходе имею:

ERROR (online2-tcp-nnet3-decode-faster[5.5.20~1-5cd5]:DecodableNnetLoopedOnlineBase():decodable-online-looped.cc:46) Input feature dimension mismatch: got 13 but network expects 20

Не могу понять, где что-то пошло не так.

GitHub

gooofy/kaldi-adapt-lm

Adapt Kaldi-ASR nnet3 chain models from Zamia-Speech.org to a different language model - gooofy/kaldi-adapt-lm

источник

10:59пожаловаться #16

NS

Nikolay Shmyrev in Распознавание речи

mfcc.conf не тот

источник

11:00пожаловаться #17

AO

Andrei Obyortyshev in Распознавание речи

Из 0.6 подтягивался по идее.

—use-energy=false
—sample-frequency=8000
—num-mel-bins=20
—num-ceps=20
—low-freq=100
—high-freq=3700

источник

11:01пожаловаться #18

AO

Andrei Obyortyshev in Распознавание речи

А. Оказалось поправил не все пути. Взлетело, спасибо.

источник

11:08пожаловаться #19

2019 September 05

MW

Mohammad Wolf in Распознавание речи

Vlad

Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):

1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%

2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%

3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%

Че такое ser и wer?

источник

03:18пожаловаться #20