Size: a a a

Распознавание речи

2018 January 26

АЕ

Алексей Ефремов in Распознавание речи
Кстати, у pocketsphinx_continuous "на лету" можно менять параметры?
источник

NS

Nikolay Shmyrev in Распознавание речи
Алексей Ефремов
Без него совсем никак?
https://pypi.python.org/pypi/pyalsaaudio можно ещё использовать
источник

NS

Nikolay Shmyrev in Распознавание речи
Алексей Ефремов
А вот подскажите, если использую вот эти классы decoder и т.д. то какой демон используется для распознавания? Не pocketsphinx_continuous же...
Демона придётся самому написать
источник

NS

Nikolay Shmyrev in Распознавание речи
Алексей Ефремов
Кстати, у pocketsphinx_continuous "на лету" можно менять параметры?
Нельзя
источник
2018 January 29

СК

Сергей Кушеев in Распознавание речи
Алексей Ефремов
Вот то что сейчас у меня получается. Все хорошо, но когда открыто окно, например, этот шум интерпретируется в команды.
На какой частоте шум?
источник

АЕ

Алексей Ефремов in Распознавание речи
Сергей Кушеев
На какой частоте шум?
Сергей, легче было в "нашей группе". Я там это тоже выкладывал. Шум я называю фоновыми звуками - телевизор, гул дороги. То есть частоты как таковой нет - в широком спектре.
источник

СК

Сергей Кушеев in Распознавание речи
Алексей Ефремов
Сергей, легче было в "нашей группе". Я там это тоже выкладывал. Шум я называю фоновыми звуками - телевизор, гул дороги. То есть частоты как таковой нет - в широком спектре.
Это понятно, нужна частота этого шума, чтобы понять о возможности образать аппаратно
источник

СК

Сергей Кушеев in Распознавание речи
Вообще при тестировании интересно кто через какие микрофоны говорит
источник

АЕ

Алексей Ефремов in Распознавание речи
Я из своих 6 штук (в том числе один WM-60) выбрал 2 шт. Один нонейм, у другого название гляну вечером. А вообще есть смысл оставлять диапазон 300-3400 Гц. Правда если делать Voice ID, то скорее всего диапазон должен быть больше. В CMU Sphinx по умолчанию частота дискретизации 16000Гц.
источник

VG

Veniamin Gvozdikov in Распознавание речи
@nshmyrev что-то у меня не выходит запустить вашу модель в asr-kald.
ERROR (fcgi-nnet3-decoder[5.3.98~1-3031]:ReadConfigFile():parse-options.cc:469) Cannot open config file: mfcc.conf
источник

AC

Artyom Chernetsov in Распознавание речи
там в decode.sh пути захардкожены, надо на свои поменять
источник

VG

Veniamin Gvozdikov in Распознавание речи
Artyom Chernetsov
там в decode.sh пути захардкожены, надо на свои поменять
Спасибо, сейчас попробую
источник

VG

Veniamin Gvozdikov in Распознавание речи
Artyom Chernetsov
там в decode.sh пути захардкожены, надо на свои поменять
http://dpaste.com/3MEDDJ6 вот что произошло, когда попытался залить файл который лежал в том же каталоге где и модель
vg@localhost:~/kaldi/kaldi-ru-0.4$ curl -H "Content-Type: application/octet-stream" --data-binary  @decoder-test.wav http://localhost/asr
{"status":"error","data":[{"text":""}]}
источник

NS

Nikolay Shmyrev in Распознавание речи
ivector-config надо добавить
источник

VG

Veniamin Gvozdikov in Распознавание речи
Nikolay Shmyrev
ivector-config надо добавить
это какой-то параметр?
источник

VG

Veniamin Gvozdikov in Распознавание речи
Я сейчас жду уже часа 3 когда старая версия kaldi скомпилится, думал в этом дело
источник

NS

Nikolay Shmyrev in Распознавание речи
--ivector-extraction-config=exp/tdnn/conf/ivector_extractor.conf
источник

NS

Nikolay Shmyrev in Распознавание речи
старая версия не будет работать
источник

VG

Veniamin Gvozdikov in Распознавание речи
Nikolay Shmyrev
--ivector-extraction-config=exp/tdnn/conf/ivector_extractor.conf
Такой конфигурации в asr-server нет. Походу это надо дописать в самом asr-server
источник

VG

Veniamin Gvozdikov in Распознавание речи
Сейчас попробую старую модель, 0.3 вашу попробовать
источник