Телеграмм чат группы cmusphinx_ru страница 142

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Распознавание речи

225 membersпожаловаться на группу

2019 September 05

V

Vlad in Распознавание речи

Этого не говорили
Скорее всего такой прайс из-за того, что надо собирать и готовить данные под русский язык и плюс они скорее всего не хотят вообще сотрудничать, вот и заломили ценник

источник

16:36пожаловаться #1

V

Vlad in Распознавание речи

Мы для них мелковаты будем)) Да даже сбербанк какой тоже им вряд ли будет интересен

источник

16:37пожаловаться #2

VV

Vlad Vinogradov in Распознавание речи

Мы для них мелковаты будем)) Да даже сбербанк какой тоже им вряд ли будет интересен

А кто вы, простите? :)

источник

16:38пожаловаться #3

V

Vlad in Распознавание речи

Некоторая компания, которая занимается разработкой чат ботов (как голосовых, так и непосредственно в мессенджерах/чатах) в основном для call-центров пока что)

источник

16:39пожаловаться #4

2019 September 06

AO

Andrei Obyortyshev in Распознавание речи

Не понимаю как так получается, что в 0.6 есть слово, например "автограф", но при этом: "phone "f" is not in {, non}silence.txt"
И таких фонем несколько. Как это работает?

источник

07:55пожаловаться #5

NS

Nikolay Shmyrev in Распознавание речи

nonsilence.txt неправильно сделан

источник

10:27пожаловаться #6

NS

Nikolay Shmyrev in Распознавание речи

исходный словарь видимо не тот, в моем nonsilence есть f

источник

10:28пожаловаться #7

AO

Andrei Obyortyshev in Распознавание речи

То есть акустика их возвращает, а здесь мы сами описываем то, что ожидает языковая модель?

источник

10:31пожаловаться #8

NS

Nikolay Shmyrev in Распознавание речи

Ну можно и так считать. На самом деле просто скрипты неправильно работают.

источник

10:33пожаловаться #9

NS

Nikolay Shmyrev in Распознавание речи

вот такой должен быть nonsilence

источник

10:34пожаловаться #10

AO

Andrei Obyortyshev in Распознавание речи

Понятно. Скрипты скриптами, просто прояснил для понимания. Спасибо!

источник

10:35пожаловаться #11

2019 September 12

NS

Nikolay Shmyrev in Распознавание речи

Specom 2020 will be in SPB

http://www.specom.nw.ru/2020

источник

00:12пожаловаться #12

2019 September 15

V

Vlad in Распознавание речи

В тему клонирования голоса по 5-7 секундам речи человека: я выше скидывал статью с хабра на эту тему https://habr.com/ru/post/465941/ в ней автор выложил дообученную на русском языке английскую модель в открытый доступ. Я её запустил, протестил, в итоге: не каждый голос копируется очень хорошо, плюс очень часто синтезатор тупо глотает слова или окончания, ещё большие проблемы с интонацией и ударениями, а иногда даже в прямом смысле английский акцент появляется))

Многоязычный синтез речи с клонированием

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнать классические подходы и с каждым годам испытывают на се...

источник

09:02пожаловаться #13

V

Vlad in Распознавание речи

Есть у кого мысли, как можно побороть эти проблемы?

В частности сейчас очень интересно то, какую фразу лучше всего надиктовывать на вход, что бы получить корректный синтез. Т.к. если на вход подать одну из фраз в обучающей выборке (там в репо пример есть), то нормально синтезируется почти любой текст

Вероятно, фраза должна содержать все возможные сочетания фонем русского языка, но я в этом не уверен, и если это так - то где такую найти)

источник

09:05пожаловаться #14

V

Vlad in Распознавание речи

И ещё мы тут немного ошиблись в подсчёте wer для espnet и kaldi, и пересчитали его заново на нашем тестовом датасете из телефонии на 1 час. Вот результаты, если кому интересно (гугл для эталона):
Google Speech API
WER = 0.33, SER = 0.911
С парсером чисел
WER = 0.31, SER = 0.911
———
Kaldi
WER = 0.44, SER = 0.911
———
ESPnet
WER = 0.22, SER = 0.75

В итоге готовая модель для espnet, обученная на датасете open_stt (там около 7000 часов аудио разного качества) показывает лучшую точность работы, чем другие. Мы пробовали обучать espnet отдельно только на телефонии (там около 20 часов), но результат был хуже: wer около 37-38%

источник

09:13пожаловаться #15

NS

Nikolay Shmyrev in Распознавание речи

Интересный результат, но насчет 37% на 20 часах что-то не верится. и 22% тоже смущают.

источник

11:22пожаловаться #16

V

Vlad in Распознавание речи

А чем смущают?

37% - т.к. изначально у нас было 2 часа тестового датасета из телефонии, мы 1 час докинули к обучающей выборке, а второй оставили для валидации

источник

11:33пожаловаться #17

NS

Nikolay Shmyrev in Распознавание речи

Ну если люди пересекаются, то может быть.

источник

11:35пожаловаться #18

V

Vlad in Распознавание речи

Но готовая модель то точно никак не персекается с нашим датасетом

источник

11:36пожаловаться #19

V

Vlad in Распознавание речи

Но на фоне других движков у ESPnet есть большой минус: он походу не умеет работать с потоковым аудио. Не могу найти инфу/примеры работы с микрофоном в их репо именно в режиме потока (например, как это сделано в pocketsphinx, где произносишь фразу и он по мере произношения её распознаёт)

источник

12:11пожаловаться #20