В общем, т. к. Яндекс не продоставляет SDK с функционалом как у Яндекс.Станции (т. е. преобразования голоса в команды и разделение их на команды для колонки (увеличить громкость) и для Алисы (какая завтра погода)), хочу спросить, как реализовать данные функции?
В общем, т. к. Яндекс не продоставляет SDK с функционалом как у Яндекс.Станции (т. е. преобразования голоса в команды и разделение их на команды для колонки (увеличить громкость) и для Алисы (какая завтра погода)), хочу спросить, как реализовать данные функции?
Если вам нужно распознавание сущностей в тексте, то это Natural Language Processing. Сфинкс этим не занимается совсем. Есть отечественная Open Source разработка на Питон "Наташа", но я с ней не разобрался, могу дать ссылку на чат по NLP в Телеграме (там можно и по Наташе вопросы задавать и более общие вопросы)
Если вам нужно распознавание сущностей в тексте, то это Natural Language Processing. Сфинкс этим не занимается совсем. Есть отечественная Open Source разработка на Питон "Наташа", но я с ней не разобрался, могу дать ссылку на чат по NLP в Телеграме (там можно и по Наташе вопросы задавать и более общие вопросы)
Должно ли падать качество распознавания речи, если модель под 16к, а файлы я перегоняю из 8к (ffmpeg -ar 16000)? Другими словами, имеет ли смысл записывать в 16к либо переобучать модель под 8к?
А если допустим нет возможности писать 16к, то что лучше - обучать модель под 8, снижая sample rate обучающей выборки, либо же обучаться на 16к, и конвертировать 8->16 при распознавании?