Телеграмм чат группы cmusphinx_ru страница 141

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Распознавание речи

225 membersпожаловаться на группу

2019 September 05

KY

Kim Young in Распознавание речи

Я знаю инфу только по синтезу речи у него, и ещё говорят, что алгоритмы и гугла и Яндекса практически одинаковые, как и у kaldi/espnet, большое отличие только в том, что у гугла есть тонны данных для обучения

Вообщем разница в количестве данных и флопсов, ну и оптимизации

источник

12:14пожаловаться #1

KY

Kim Young in Распознавание речи

Nikolay Shmyrev

Вот тут можно почитать http://iscslp2018.org/images/T4_Towards%20end-to-end%20speech%20recognition.pdf

Спасибо

источник

12:14пожаловаться #2

V

Vlad in Распознавание речи

Nikolay Shmyrev

Вот тут можно почитать http://iscslp2018.org/images/T4_Towards%20end-to-end%20speech%20recognition.pdf

Спасибо

источник

12:15пожаловаться #3

VV

Vlad Vinogradov in Распознавание речи

Привет :)
Я тут новичок, основная область — компьютерное зрение.
Не подскажете, есть ли датасеты по верификации по голосу на русском языке?

источник

15:19пожаловаться #4

VV

Vlad Vinogradov in Распознавание речи

Интересуюсь данными на русском для обучения такой штуки :)
https://github.com/CorentinJ/Real-Time-Voice-Cloning

CorentinJ/Real-Time-Voice-Cloning

Clone a voice in 5 seconds to generate arbitrary speech in real-time - CorentinJ/Real-Time-Voice-Cloning

источник

15:21пожаловаться #5

NS

Nikolay Shmyrev in Распознавание речи

В готовом виде нет

источник

15:33пожаловаться #6

V

Vlad in Распознавание речи

Первый датасет на 1000 часов и 1000 и более голосов можно ещё насобирать (например, из open_stt датасета), а вот второй датасет на 300+ часов качественной речи одного человека - не находил. Максимум 16-20 часов

источник

15:37пожаловаться #7

V

Vlad in Распознавание речи

Мы свой будем делать, правда выложить его в открытый доступ вряд ли разрешат, ибо это будет немало денег для компании стоить)

источник

15:38пожаловаться #8

V

Vlad in Распознавание речи

Ещё кстати хорошая статья в эту тему: https://habr.com/ru/post/465941/

Многоязычный синтез речи с клонированием

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнать классические подходы и с каждым годам испытывают на се...

источник

15:41пожаловаться #9

VV

Vlad Vinogradov in Распознавание речи

Первый датасет на 1000 часов и 1000 и более голосов можно ещё насобирать (например, из open_stt датасета), а вот второй датасет на 300+ часов качественной речи одного человека - не находил. Максимум 16-20 часов

Я так понял, второй датасет необязательно по одной персоне, можно (и наверно нужно) несколько

источник

15:46пожаловаться #10

VV

Vlad Vinogradov in Распознавание речи

Ещё кстати хорошая статья в эту тему: https://habr.com/ru/post/465941/

Многоязычный синтез речи с клонированием

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнать классические подходы и с каждым годам испытывают на се...

О, спасибо

источник

15:47пожаловаться #11

V

Vlad in Распознавание речи

Vlad Vinogradov

Я так понял, второй датасет необязательно по одной персоне, можно (и наверно нужно) несколько

С этим я ещё не разобрался до конца

источник

15:47пожаловаться #12

V

Vlad in Распознавание речи

Мы кстати связывались с разработчиками этого проекта, и они сказали, что продакшн версия намного лучше работает и они готовы сотрудничать (даже с русским языком), но цена за 1 голос = 87к$))

источник

16:31пожаловаться #13

V

Vlad in Распознавание речи

Типо в опенсорс они выложили сильно упрощённую и обрезанную версию

источник

16:32пожаловаться #14

VV

Vlad Vinogradov in Распознавание речи

Мы кстати связывались с разработчиками этого проекта, и они сказали, что продакшн версия намного лучше работает и они готовы сотрудничать (даже с русским языком), но цена за 1 голос = 87к$))

А то что в видеоролике интересно по какой версии 🤔

источник

16:33пожаловаться #15

V

Vlad in Распознавание речи

Та, что в репо

источник

16:33пожаловаться #16

VV

Vlad Vinogradov in Распознавание речи

А, тогда еще нормально

источник

16:34пожаловаться #17

VV

Vlad Vinogradov in Распознавание речи

По видео не так плохо работает в принципе

источник

16:34пожаловаться #18

V

Vlad in Распознавание речи

Там в ишью писали, что он не со всеми голосами хорошо работает, какой-то нормально клонирует, какой-то вообще не похоже

источник

16:34пожаловаться #19

VV

Vlad Vinogradov in Распознавание речи

Мы кстати связывались с разработчиками этого проекта, и они сказали, что продакшн версия намного лучше работает и они готовы сотрудничать (даже с русским языком), но цена за 1 голос = 87к$))

Прайс вообще не слабый. Может они там очень красивые голоса генерируют? Типа кастомно, как deep fake

источник

16:36пожаловаться #20