Size: a a a

Распознавание речи

2019 September 05

KY

Kim Young in Распознавание речи
Vlad
Я знаю инфу только по синтезу речи у него, и ещё говорят, что алгоритмы и гугла и Яндекса практически одинаковые, как и у kaldi/espnet, большое отличие только в том, что у гугла есть тонны данных для обучения
Вообщем разница в количестве данных и флопсов, ну и оптимизации
источник

KY

Kim Young in Распознавание речи
Спасибо
источник

V

Vlad in Распознавание речи
Спасибо
источник

VV

Vlad Vinogradov in Распознавание речи
Привет :)
Я тут новичок, основная область — компьютерное зрение.
Не подскажете, есть ли датасеты по верификации по голосу на русском языке?
источник

VV

Vlad Vinogradov in Распознавание речи
Интересуюсь данными на русском для обучения такой штуки :)
https://github.com/CorentinJ/Real-Time-Voice-Cloning
источник

NS

Nikolay Shmyrev in Распознавание речи
В готовом виде нет
источник

V

Vlad in Распознавание речи
Первый датасет на 1000 часов и 1000 и более голосов можно ещё насобирать (например, из open_stt датасета), а вот второй датасет на 300+ часов качественной речи одного человека - не находил. Максимум 16-20 часов
источник

V

Vlad in Распознавание речи
Мы свой будем делать, правда выложить его в открытый доступ вряд ли разрешат, ибо это будет немало денег для компании стоить)
источник

V

Vlad in Распознавание речи
Ещё кстати хорошая статья в эту тему: https://habr.com/ru/post/465941/
источник

VV

Vlad Vinogradov in Распознавание речи
Vlad
Первый датасет на 1000 часов и 1000 и более голосов можно ещё насобирать (например, из open_stt датасета), а вот второй датасет на 300+ часов качественной речи одного человека - не находил. Максимум 16-20 часов
Я так понял, второй датасет необязательно по одной персоне, можно (и наверно нужно) несколько
источник

VV

Vlad Vinogradov in Распознавание речи
О, спасибо
источник

V

Vlad in Распознавание речи
Vlad Vinogradov
Я так понял, второй датасет необязательно по одной персоне, можно (и наверно нужно) несколько
С этим я ещё не разобрался до конца
источник

V

Vlad in Распознавание речи
Мы кстати связывались с разработчиками этого проекта, и они сказали, что продакшн версия намного лучше работает и они готовы сотрудничать (даже с русским языком), но цена за 1 голос = 87к$))
источник

V

Vlad in Распознавание речи
Типо в опенсорс они выложили сильно упрощённую и обрезанную версию
источник

VV

Vlad Vinogradov in Распознавание речи
Vlad
Мы кстати связывались с разработчиками этого проекта, и они сказали, что продакшн версия намного лучше работает и они готовы сотрудничать (даже с русским языком), но цена за 1 голос = 87к$))
А то что в видеоролике интересно по какой версии 🤔
источник

V

Vlad in Распознавание речи
Та, что в репо
источник

VV

Vlad Vinogradov in Распознавание речи
А, тогда еще нормально
источник

VV

Vlad Vinogradov in Распознавание речи
По видео не так плохо работает в принципе
источник

V

Vlad in Распознавание речи
Там в ишью писали, что он не со всеми голосами хорошо работает, какой-то нормально клонирует, какой-то вообще не похоже
источник

VV

Vlad Vinogradov in Распознавание речи
Vlad
Мы кстати связывались с разработчиками этого проекта, и они сказали, что продакшн версия намного лучше работает и они готовы сотрудничать (даже с русским языком), но цена за 1 голос = 87к$))
Прайс вообще не слабый. Может они там очень красивые голоса генерируют? Типа кастомно, как deep fake
источник