Телеграмм чат группы cmusphinx_ru страница 143

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Распознавание речи

225 membersпожаловаться на группу

2019 September 15

A

Alexander in Распознавание речи

И ещё мы тут немного ошиблись в подсчёте wer для espnet и kaldi, и пересчитали его заново на нашем тестовом датасете из телефонии на 1 час. Вот результаты, если кому интересно (гугл для эталона):
Google Speech API
WER = 0.33, SER = 0.911
С парсером чисел
WER = 0.31, SER = 0.911
———
Kaldi
WER = 0.44, SER = 0.911
———
ESPnet
WER = 0.22, SER = 0.75

В итоге готовая модель для espnet, обученная на датасете open_stt (там около 7000 часов аудио разного качества) показывает лучшую точность работы, чем другие. Мы пробовали обучать espnet отдельно только на телефонии (там около 20 часов), но результат был хуже: wer около 37-38%

А вы делаете решение для какой-то коммерческой компании?

источник

12:58пожаловаться #1

V

Vlad in Распознавание речи

Примерно да, работаю штатным инженером по машинному обучению

источник

12:59пожаловаться #2

A

Alexander in Распознавание речи

А какой, если не секрет?

источник

13:00пожаловаться #3

V

Vlad in Распознавание речи

Я думаю руководство не одобрит, если я это скажу)

источник

13:00пожаловаться #4

A

Alexander in Распознавание речи

Почему?

источник

13:00пожаловаться #5

V

Vlad in Распознавание речи

Конкуренция, все дела

источник

13:01пожаловаться #6

A

Alexander in Распознавание речи

Т.е. т.к. вы используете cc-nc-by (можно использовать для некоммерческих решений) датасет, и не платите авторам, но открыто говорите об этом?
Там авторы открыли в т.ч. страницу для сбора донатов - и пока вообще только 1 кто-то закинул

В принципе это ожидаемо конечно

источник

13:02пожаловаться #7

V

Vlad in Распознавание речи

С чего вы решили, что этот проект запущен в принципе?

источник

13:05пожаловаться #8

V

Vlad in Распознавание речи

Мы используем google speech api для прода

источник

13:05пожаловаться #9

V

Vlad in Распознавание речи

т.к. это единственное, что держит большие нагрузки и даёт стабильную ошибку в примерно 30-35%

источник

13:05пожаловаться #10

V

Vlad in Распознавание речи

А это всё пока только тесты, к тому же мы связывались с самими разработчиками (как espnet, так и авторов клонирования голоса)

источник

13:06пожаловаться #11

V

Vlad in Распознавание речи

Если результаты будут такие, которые не стыдно пустить в прод на замену гуглу - с радостью задонатим авторам

источник

13:07пожаловаться #12

V

Vlad in Распознавание речи

Но пока что доказать руководству целесообразность занесения денег этим ребятам я не могу, ибо нет отчётов о том, что в ходе такого и такого теста на клиентах были результаты лучше, чем сейчас)

источник

13:07пожаловаться #13

A

Alexander in Распознавание речи

Интересная у вас логика конечно

источник

13:08пожаловаться #14

A

Alexander in Распознавание речи

Пока вы не сделаете лучше гугла, зп вам тоже не платят?)

источник

13:08пожаловаться #15

V

Vlad in Распознавание речи

У espnet на данный момент конечно wer хороший, но время обработки 1 запроса с аудио 3 сек на gpu 1070 1.8 секунды

источник

13:09пожаловаться #16

A

Alexander in Распознавание речи

Я про датасет
Не про фреймворки

источник

13:09пожаловаться #17

V

Vlad in Распознавание речи

И нет потоковой работы с аудио

источник

13:09пожаловаться #18

V

Vlad in Распознавание речи

ааа

источник

13:09пожаловаться #19

V

Vlad in Распознавание речи

Окей, а кому вообще по вашему донатить, если данные собирали одни люди, а обучали другие?))

источник

13:09пожаловаться #20