Size: a a a

Распознавание речи

2017 November 23

NK

ID:240601999 in Распознавание речи
Nikolay Shmyrev
Есть наверное
можете показать
источник

NS

Nikolay Shmyrev in Распознавание речи
источник

rt

ros tel in Распознавание речи
подскажите какое ПО подойдет по задаче распознавания записей телефонных разговоров в офлайне
в сутки порядка 2000 wav-ок рейтом 8k весом ~1.8GB
пробовал pocketsphinx, но скорость ужасно низкая
даже если будет молотить сутки на пролет все-равно суточный объем записей не успеет переварить
источник

NS

Nikolay Shmyrev in Распознавание речи
ros tel
подскажите какое ПО подойдет по задаче распознавания записей телефонных разговоров в офлайне
в сутки порядка 2000 wav-ок рейтом 8k весом ~1.8GB
пробовал pocketsphinx, но скорость ужасно низкая
даже если будет молотить сутки на пролет все-равно суточный объем записей не успеет переварить
Nikolay Shmyrev:
Выложил http://alphacephei.com/kaldi/kaldi-ru-0.3.tar.gz, модель натренирована с векторами, можно использовать в kaldi без изменений
источник

rt

ros tel in Распознавание речи
для kaldi CUDA обязателен?
источник

rt

ros tel in Распознавание речи
похоже не нежно
спасибо
буду углубляться в этом направлении
источник

NS

Nikolay Shmyrev in Распознавание речи
Не обязательно
источник
2017 November 27

rt

ros tel in Распознавание речи
Nikolay Shmyrev
Не обязательно
спасибо за наводку.
пощупал kaldi.
ошибок делает меньше чем pocketsphinx
по скорости пока трудно сказать точно, но субъективно примерно одинаково (может у меня слишком дохлый комп домашний Atom525 4G RAM).
хотя ошибок меньше, но все же они есть.
директор горит желанием создать AM (может и ML) под нашу специфичную терминологию:
> можно взять 100 сотрудников + к примеру еше найти 100 добровольцев кто продиктует на фрилансе, а то и более можно.
я в этой теме совсем зеленый.
ткните плиз носом с чего начать для составления AM под kaldi.
чую задача не по силам, но надо как-то аргументировать что не стоит даже пытаться.
источник

NK

ID:240601999 in Распознавание речи
Шум мешает процессу распознавания?
источник

NS

Nikolay Shmyrev in Распознавание речи
ID:240601999
Шум мешает процессу распознавания?
Надо думать
источник
2017 November 28

rt

ros tel in Распознавание речи
проверял не десятке записей.
на слух шума там почти нет.
восновном спотыкается на жаргонизмах (типографское дело: макеты, буклеты, A4), но еще сказывается специфика принятия заказов по телефону (оператор пытается как можно быстрей выудить кучу нужной инфы и довольно бегло говорит)
источник

rt

ros tel in Распознавание речи
думаю нарезать несколько разговоров с одним и тем же оператором расшифровать каждый отрезок и попробовать добавить в существующую модель для пробы.
набрел на эту страницу
http://kaldi-asr.org/doc/tutorial_running.html
в примерах посмотрел. что в каких файлах писать вроде понятно.
непонятно только как дообучить сущесвующую модель.
источник

rt

ros tel in Распознавание речи
набрел ещё на эту репу https://github.com/freerussianasr/recipes/
так понимаю можно докидать файлов по образу и подобию с voxforge и с нуля обучить.
но это на крайний случай, ибо скорей всего очень долгий процесс.
источник
2017 November 29

NK

ID:240601999 in Распознавание речи
ros tel
спасибо за наводку.
пощупал kaldi.
ошибок делает меньше чем pocketsphinx
по скорости пока трудно сказать точно, но субъективно примерно одинаково (может у меня слишком дохлый комп домашний Atom525 4G RAM).
хотя ошибок меньше, но все же они есть.
директор горит желанием создать AM (может и ML) под нашу специфичную терминологию:
> можно взять 100 сотрудников + к примеру еше найти 100 добровольцев кто продиктует на фрилансе, а то и более можно.
я в этой теме совсем зеленый.
ткните плиз носом с чего начать для составления AM под kaldi.
чую задача не по силам, но надо как-то аргументировать что не стоит даже пытаться.
А как использует оперативку Kaldi?
У меня CMU Sphuinx ест где-то 4 Гб.
Pocketsphinx - 700Мб.
источник

rt

ros tel in Распознавание речи
что-то я не смотрел даже, но у меня под рукой больше 4G и не находилось
особо не беспокоит потребление ибо под это нужное дело могут поставить сколько нужно
шеф загорелся прям сильно
источник

AC

Artyom Chernetsov in Распознавание речи
~3гб на последнем примере от Николая вышло
источник

AC

Artyom Chernetsov in Распознавание речи
хотя вот так (через time), 700 мб получилось
https://stackoverflow.com/a/774601/827704
источник

AC

Artyom Chernetsov in Распознавание речи
Command being timed: "./decode.sh"
       User time (seconds): 21.95
       System time (seconds): 0.61
       Percent of CPU this job got: 175%
       Elapsed (wall clock) time (h:mm:ss or m:ss): 0:12.90
       Average shared text size (kbytes): 0
       Average unshared data size (kbytes): 0
       Average stack size (kbytes): 0
       Average total size (kbytes): 0
       Maximum resident set size (kbytes): 699184
       Average resident set size (kbytes): 0
       Major (requiring I/O) page faults: 0
       Minor (reclaiming a frame) page faults: 332482
       Voluntary context switches: 12879
       Involuntary context switches: 461
       Swaps: 0
       File system inputs: 0
       File system outputs: 0
       Socket messages sent: 0
       Socket messages received: 0
       Signals delivered: 0
       Page size (bytes): 4096
       Exit status: 0
источник

rt

ros tel in Распознавание речи
подсуньте вавку подлинней
источник

AC

Artyom Chernetsov in Распознавание речи
это почти на минутной вавке
источник