Телеграмм чат группы cmusphinx

Выложил http://alphacephei.com/kaldi/kaldi-ru-0.6.tar.gz, улучшена точность распознавания.

Демонстрация тут -> https://alphacephei.com/ (требуется Google Chrome).

Для быстрой установки docker:

docker run -p 2700:2700 alphacep/kaldi-ru:latest

Выложил синтез речи https://github.com/alphacep/tn2-wg

Другие каналы https://t.me/cmusphinx (английский)

https://t.me/speech_recognition (новости о распознавании речи)

GitHub

alphacep/tn2-wg

Tacotron2 + Waveglow Russian. Contribute to alphacep/tn2-wg development by creating an account on GitHub.

можно узнать, как тренировалось?

источник

15:38пожаловаться #12

RG

Ruslan Gaifullin in Распознавание речи

какой датасет, в первую очередь

источник

15:45пожаловаться #13

2019 February 08

NS

Nikolay Shmyrev in Распознавание речи

https://habr.com/ru/company/yandex/blog/438768/

Хабр

Как я помогал Алисе не откликаться на другие имена. Стажировка в Яндексе

Привет, Хабр. Меня зовут Алексей Рак, я разработчик голосового помощника Алиса в минском офисе Яндекса. Эту позицию я получил, пройдя здесь, в этой же команде, т...

источник

02:44пожаловаться #14

NS

Nikolay Shmyrev in Распознавание речи

даже яблоко уже разпознаёт слова целиком, в яндексе всё ещё по звукам

источник

02:44пожаловаться #15

2019 February 14

ММ

Мария Мамонова in Распознавание речи

всем - здравствуйте
пишем демо-проект для распознавания команд из аудиофайлов. используется словарь и свой файл грамматики вместо языковой модели

Грамматика
#JSGF V1.0;
grammar commands;
<action> = (включить | выключить);
<device> = (проектор | звук | презентацию);
public <commands> = (<action> <device>);

словарь
включить v k ll uj ch i tt
выключить v y k ll uj ch ii tt
звук z v uu k
презентацию p rr i zz i n t aa c y uj
проектор p r ay i k t oo r

для проверки используются несколько аудио от разных людей (т.е., с разными голосами, громкостью, дикцией и т.д.) - всего 4 пока.
из этих 4 аудио результат выдается только на одном, остальные же результатом выдают пустую строку (т.е., как будто там никто ничего не говорил)

можете подсказать, как можно этот мент улучшить? чтобы распознавало больше входящих реплик?

в качестве акустической модели используется zero_ru.cd_cont_4000

источник

17:49пожаловаться #16

NS

Nikolay Shmyrev in Распознавание речи

Мария Мамонова

всем - здравствуйте
пишем демо-проект для распознавания команд из аудиофайлов. используется словарь и свой файл грамматики вместо языковой модели

Грамматика
#JSGF V1.0;
grammar commands;
<action> = (включить | выключить);
<device> = (проектор | звук | презентацию);
public <commands> = (<action> <device>);

словарь
включить v k ll uj ch i tt
выключить v y k ll uj ch ii tt
звук z v uu k
презентацию p rr i zz i n t aa c y uj
проектор p r ay i k t oo r

для проверки используются несколько аудио от разных людей (т.е., с разными голосами, громкостью, дикцией и т.д.) - всего 4 пока.
из этих 4 аудио результат выдается только на одном, остальные же результатом выдают пустую строку (т.е., как будто там никто ничего не говорил)

можете подсказать, как можно этот мент улучшить? чтобы распознавало больше входящих реплик?

в качестве акустической модели используется zero_ru.cd_cont_4000

использовать cmusphinx-ru

источник

17:59пожаловаться #17

ММ

Мария Мамонова in Распознавание речи

сейчас используется pocketsphinx - он, вроде, входит в cmusphinx?

источник

18:06пожаловаться #18

NS

Nikolay Shmyrev in Распознавание речи

модель cmusphinx-ru вместо zero

источник