Size: a a a

Распознавание речи

2018 June 02

NS

Nikolay Shmyrev in Распознавание речи
Хуже
источник

NS

Nikolay Shmyrev in Распознавание речи
Espnet загуглить
источник

IZ

Igor Zudov in Распознавание речи
@nshmyrev , здравствуйте! Вопрос по вашей модели для Калди. Как возможно её дополнить географическими названиями и специфичными словами?
источник

NS

Nikolay Shmyrev in Распознавание речи
источник

NS

Nikolay Shmyrev in Распознавание речи
Как то так
источник

SK

Sergey Korol in Распознавание речи
@nshmyrev привет, а есть ли пример yaml файла (описывающего приатаченную модель) для kaldi-gstreamer-server?.. или в целом, этот вариант должен подойти - https://github.com/alumae/kaldi-gstreamer-server/blob/master/sample_english_nnet2.yaml?.. за исключением правки путей...
источник

NS

Nikolay Shmyrev in Распознавание речи
Sergey Korol
@nshmyrev привет, а есть ли пример yaml файла (описывающего приатаченную модель) для kaldi-gstreamer-server?.. или в целом, этот вариант должен подойти - https://github.com/alumae/kaldi-gstreamer-server/blob/master/sample_english_nnet2.yaml?.. за исключением правки путей...
источник

SK

Sergey Korol in Распознавание речи
@nshmyrev т.е. для этой модели нужен nnet-mode: 3?
источник

SK

Sergey Korol in Распознавание речи
или имелся ввиду линк на librispeech конфиг?
источник
2018 June 03

SK

Sergey Korol in Распознавание речи
в общем, попробовал разные варианты... worker стартует, но завершает работу при первом же запросе, без каких-либо ошибок в логе... с дефолтной англ моделью нормально работает...
попробовал протестить модель на чистом kaldi в докере - нормально все завелось с кастомными wav... точность тоже весьма и весьма неплохая...
@nshmyrev подскажи, пожалуйста, для передачи аудио потока с микрофона на сервер под твою модель нужно использовать online-audio-server-decode-faster + любой поддерживаемый клиент, верно?..
источник

VG

Veniamin Gvozdikov in Распознавание речи
Sergey Korol
в общем, попробовал разные варианты... worker стартует, но завершает работу при первом же запросе, без каких-либо ошибок в логе... с дефолтной англ моделью нормально работает...
попробовал протестить модель на чистом kaldi в докере - нормально все завелось с кастомными wav... точность тоже весьма и весьма неплохая...
@nshmyrev подскажи, пожалуйста, для передачи аудио потока с микрофона на сервер под твою модель нужно использовать online-audio-server-decode-faster + любой поддерживаемый клиент, верно?..
Оно просто так не запуститься, там костылить надо. Если что пингани в понедельник, я гляну на работе как у меня собирается контейнер
источник

VG

Veniamin Gvozdikov in Распознавание речи
Но там проблемы другие, если долго сервис в ожидании, то потом не отвечает на запросы. В целом его по уму бы переписать нормально.
источник

SK

Sergey Korol in Распознавание речи
@zloidemon понял, спасибо, в Пн пингану... вообще, для своей задачи я уже написал рабочий вариант на java под cmusphinx4 с ограниченной моделью... но хотелось бы сравнить результаты с kaldi... все говорят, что kaldi намного точнее... потому решил потестить...
источник
2018 June 05

SK

Sergey Korol in Распознавание речи
с пропатченной версией сервера удалось завестись с последней моделью (0.6)... отдельное спасибо @zloidemon за Dockerfile
источник
2018 June 06

LV

Leo V in Распознавание речи
а запости плиз докер файл?
источник

LV

Leo V in Распознавание речи
я тоже хочу попробовать наконец калди и русскую модель
источник

SK

Sergey Korol in Распознавание речи
Если @zloidemon не против, могу залить на GitHub.
источник

SK

Sergey Korol in Распознавание речи
Он мейнтейнер скрипта.
источник

VG

Veniamin Gvozdikov in Распознавание речи
Sergey Korol
Если @zloidemon не против, могу залить на GitHub.
Я сам залью позже, там есть что доделать.
источник
2018 June 07

IZ

Igor Zudov in Распознавание речи
@nshmyrev  , здравствуйте! Почувствовал острую необходимость  в  расширении Вашей модели, а именно включении географических названий, некоторой профессиональной терминологии. Хочу как-то внести вклад в модель. В каком виде я могу предоставить вам информацию, чтобы вы могли вкючить ее в следующий релиз?
источник