Size: a a a

Распознавание речи

2019 February 27

NS

Nikolay Shmyrev in Распознавание речи
Понятно. Ну там просто так работать не будет, там все устройства специальные. Надо ALSA настроить и програмку запустить, чтобы из этих специальных устройств звук перенаправлять в стандартный alsa микрофон, вроде как в https://github.com/STMicroelectronics-CentralLabs/BlueVoice-for-Linux
источник

NS

Nikolay Shmyrev in Распознавание речи
sphinxbase/pocketsphinx потом с альсой пересобрать
источник

NS

Nikolay Shmyrev in Распознавание речи
BlueVoice-for-Linux.git и python3 main.py там ключевые
источник

NS

Nikolay Shmyrev in Распознавание речи
python как демон пересылает звук
источник

AO

Andrei Obyortyshev in Распознавание речи
Понял, буду пробовать. Спасибо :)
источник

NS

Nikolay Shmyrev in Распознавание речи
Сначала в любом случае с arecord надо тестировать запись звука, потом уже распознавание
источник

ММ

Мария Мамонова in Распознавание речи
Nikolay Shmyrev
rawlogdir="/tmp" можно добавить и послушать файлы, в них будет тишина.
да, действительно, файл с тишиной получился. но это странно, потому что микрофон точно подключен и работает (проверила)
источник

NS

Nikolay Shmyrev in Распознавание речи
Может не настроен правильно, или пульсаудио сломалось.
источник

NS

Nikolay Shmyrev in Распознавание речи
Он с пульсом работает по умолчанию, надо parecord проверить
источник
2019 March 01

ММ

Мария Мамонова in Распознавание речи
здравствуйте
есть распознавание аудиофайлов

import os
import sys
from pocketsphinx import AudioFile, get_model_path, get_data_path
model_path = get_model_path()
data_path = get_data_path()
config = {
   'verbose': False,
   'audio_file': os.path.join(data_path, "/home/mmamonova/speach2text-commands-sphinx/app/static/load_files/audio/"+ _file_name),
   'buffer_size': 2048,
   'no_search': False,
   'full_utt': False,
   'hmm': os.path.join(model_path, 'cmusphinx-ru-5.2'),
   'lm':   False,
   'jsgf': os.path.join(model_path, 'grammar.jsgf'),
   'dict': os.path.join(model_path, 'dictionary.dic'),
}
audio = AudioFile(**config)
for phrase in audio:
   print (phrase)

но этот вариант получается очень зависим от шумов, да и распознает не идеально. подскажите, как можно сделать его менее зависимым от шумов, и, в целом, улучшить качество распознавания? можно ли как-то дообучить акустическую модель? (использую cmusphinx-ru-5.2)
источник

АЖ

Артем Жуков in Распознавание речи
Мария Мамонова
здравствуйте
есть распознавание аудиофайлов

import os
import sys
from pocketsphinx import AudioFile, get_model_path, get_data_path
model_path = get_model_path()
data_path = get_data_path()
config = {
   'verbose': False,
   'audio_file': os.path.join(data_path, "/home/mmamonova/speach2text-commands-sphinx/app/static/load_files/audio/"+ _file_name),
   'buffer_size': 2048,
   'no_search': False,
   'full_utt': False,
   'hmm': os.path.join(model_path, 'cmusphinx-ru-5.2'),
   'lm':   False,
   'jsgf': os.path.join(model_path, 'grammar.jsgf'),
   'dict': os.path.join(model_path, 'dictionary.dic'),
}
audio = AudioFile(**config)
for phrase in audio:
   print (phrase)

но этот вариант получается очень зависим от шумов, да и распознает не идеально. подскажите, как можно сделать его менее зависимым от шумов, и, в целом, улучшить качество распознавания? можно ли как-то дообучить акустическую модель? (использую cmusphinx-ru-5.2)
вы на своих моделях это строили или стандартные распознают аудио?
источник

ММ

Мария Мамонова in Распознавание речи
акустическая модель стандартная, но файл грамматики и словарь свои
источник

АЖ

Артем Жуков in Распознавание речи
как их формировать, можете подсказать?) такая же задача стоит)
источник

ММ

Мария Мамонова in Распознавание речи
словарь - тупо искала в словаре этой акустической модели (прям в папке cmusphinx-ru-5.2 файл с расширением .dict))  нужные мне слова, затем заносила их в отдельный файл .dic, который затем помещала в директорию модели /env/lib/python3.6/site-packages/pocketsphinx/model

грамматика - составляла файл примерно такого содержания
#JSGF V1.0;
grammar commands;
<action> = (заблокировать | разблокировать);
<device> = (систему | шторы | экран);
public <commands> = <action> <device> | <device> <action>;
с расширением .jsgf, и в ту же папку модели /env/lib/python3.6/site-packages/pocketsphinx/model. затем подключить, как в моем примере кода
источник

NS

Nikolay Shmyrev in Распознавание речи
Мария Мамонова
здравствуйте
есть распознавание аудиофайлов

import os
import sys
from pocketsphinx import AudioFile, get_model_path, get_data_path
model_path = get_model_path()
data_path = get_data_path()
config = {
   'verbose': False,
   'audio_file': os.path.join(data_path, "/home/mmamonova/speach2text-commands-sphinx/app/static/load_files/audio/"+ _file_name),
   'buffer_size': 2048,
   'no_search': False,
   'full_utt': False,
   'hmm': os.path.join(model_path, 'cmusphinx-ru-5.2'),
   'lm':   False,
   'jsgf': os.path.join(model_path, 'grammar.jsgf'),
   'dict': os.path.join(model_path, 'dictionary.dic'),
}
audio = AudioFile(**config)
for phrase in audio:
   print (phrase)

но этот вариант получается очень зависим от шумов, да и распознает не идеально. подскажите, как можно сделать его менее зависимым от шумов, и, в целом, улучшить качество распознавания? можно ли как-то дообучить акустическую модель? (использую cmusphinx-ru-5.2)
Надо тестовые данные собрать и показать 😉
источник

НЕ

Никита Еремин in Распознавание речи
Артем Жуков
как их формировать, можете подсказать?) такая же задача стоит)
На Хабре есть пара статей, где это отлично описано. Да и на официальном сайте сфинкса, наверняка, есть туториал подходящий
источник

АЖ

Артем Жуков in Распознавание речи
Мария Мамонова
словарь - тупо искала в словаре этой акустической модели (прям в папке cmusphinx-ru-5.2 файл с расширением .dict))  нужные мне слова, затем заносила их в отдельный файл .dic, который затем помещала в директорию модели /env/lib/python3.6/site-packages/pocketsphinx/model

грамматика - составляла файл примерно такого содержания
#JSGF V1.0;
grammar commands;
<action> = (заблокировать | разблокировать);
<device> = (систему | шторы | экран);
public <commands> = <action> <device> | <device> <action>;
с расширением .jsgf, и в ту же папку модели /env/lib/python3.6/site-packages/pocketsphinx/model. затем подключить, как в моем примере кода
спасибо)
источник
2019 March 07

VF

Vitaliy Fadeyev in Распознавание речи
а тут можно помощи попросить? сфинкс жрёт как не в себя
источник

NS

Nikolay Shmyrev in Распознавание речи
главное глупых вопросов не задавать
источник

VF

Vitaliy Fadeyev in Распознавание речи
я даже не знаю как подойти
источник