Size: a a a

Распознавание речи

2019 July 10

NS

Nikolay Shmyrev in Распознавание речи
ну так себе
источник

NS

Nikolay Shmyrev in Распознавание речи
без ударений как в русском ни о чём всё это
источник

II

Igor Ishin in Распознавание речи
ну значит ставки сделаны) будем искать спецов)
источник

NS

Nikolay Shmyrev in Распознавание речи
http://tiflo.info/pipermail/rhvoice-users_tiflo.info/2013-March/001376.html вот от этого надо отталкиваться лучше
источник

V

Vlad in Распознавание речи
Всем привет. Вероятно, вопрос не совсем по теме, но подобласть та же. Я сейчас подбираю решение для синтеза речи, в наличии есть датасеты на примерно 5 часов женской речи и 20 часов мужской, это для тестов (могу завтра дать ссылки, если надо).
Сейчас остановился на связке tacotron2+lpcnet на выходе. Быть может, есть более качественное решение?
На своих данных ещё не обучал, пока что подбираю решение.

Из железа есть 1070ti и 2080ti, оперативы 252Гб (собиралось под другие проекты с нейронками).

Опыта в синтезе речи нету, только в классификации текста/речи (делал определение пола человека по речи, эмоций по тексту и речи, идентификацию по голосу)
источник

II

Igor Ishin in Распознавание речи
Еще вопрос, если можно, подкинул я англоязычную запись в модель, которую предоставляет zamia-speech (1200 часов которая), по качеству запись была настолько плоха, что там сложно было понять сказанное, но модель идеально справилась с этим файлом, Ваша модель тоже очень хороша, но она с такого качества файлом справилась бы хуже, мне кажется, это связанно с прямым порядком слов в английском языке и со свободным порядком в русском или там иные причины могут быть?
источник

NS

Nikolay Shmyrev in Распознавание речи
Vlad
Всем привет. Вероятно, вопрос не совсем по теме, но подобласть та же. Я сейчас подбираю решение для синтеза речи, в наличии есть датасеты на примерно 5 часов женской речи и 20 часов мужской, это для тестов (могу завтра дать ссылки, если надо).
Сейчас остановился на связке tacotron2+lpcnet на выходе. Быть может, есть более качественное решение?
На своих данных ещё не обучал, пока что подбираю решение.

Из железа есть 1070ti и 2080ti, оперативы 252Гб (собиралось под другие проекты с нейронками).

Опыта в синтезе речи нету, только в классификации текста/речи (делал определение пола человека по речи, эмоций по тексту и речи, идентификацию по голосу)
lpcnet из коробки не заработает, для синтеза он так себе. fastspeech лучше tacotron2 😉
источник

V

Vlad in Распознавание речи
Nikolay Shmyrev
lpcnet из коробки не заработает, для синтеза он так себе. fastspeech лучше tacotron2 😉
Оо, благодарю за наводку)
Это он? https://github.com/xcmyz/FastSpeech
источник

V

Vlad in Распознавание речи
Оу, он на pytorch
Надо найти на tensorflow, ибо все предыдущие проекты на нём
источник

NS

Nikolay Shmyrev in Распознавание речи
Igor Ishin
Еще вопрос, если можно, подкинул я англоязычную запись в модель, которую предоставляет zamia-speech (1200 часов которая), по качеству запись была настолько плоха, что там сложно было понять сказанное, но модель идеально справилась с этим файлом, Ваша модель тоже очень хороша, но она с такого качества файлом справилась бы хуже, мне кажется, это связанно с прямым порядком слов в английском языке и со свободным порядком в русском или там иные причины могут быть?
Порядок слов проблем не создаёт. Про качество тяжело сказать, не думаю, что zamia такая супермодель, они её всего лишь на librispeech тренируют.
источник

V

Vlad in Распознавание речи
А хотя там cuda 10.0, tensorflow тоже эту версию использует
Не будет проблем с запуском..? Tacotron2 с tensorflow, а этот на pytorch
источник

V

Vlad in Распознавание речи
Nikolay Shmyrev
lpcnet из коробки не заработает, для синтеза он так себе. fastspeech лучше tacotron2 😉
Я правильно понимаю, что он сразу обучает и tacotron2, и эту надстройку?
источник

II

Igor Ishin in Распознавание речи
я прекрасно понимаю, что одна запись ни о чем не говорит, и поскольку у меня опыта в этой сфере, чуть меньше чем нисколько, прост о хотел уточнить по поводу порядка слов.
источник

NS

Nikolay Shmyrev in Распознавание речи
Vlad
Я правильно понимаю, что он сразу обучает и tacotron2, и эту надстройку?
вроде да
источник

II

Igor Ishin in Распознавание речи
благодарю за помощь, Вы делаете великое дело
источник

NS

Nikolay Shmyrev in Распознавание речи
Спасибо, держите нас в курсе 😉
источник

V

Vlad in Распознавание речи
Nikolay Shmyrev
вроде да
Хм, что-то там в ишью пишут, что обучается около 10 дней... При этом потом эти люди ушли в wechat и всё
источник

V

Vlad in Распознавание речи
А решение из закрепа канала насколько уступает тому, что сейчас вы предложили?
источник

NS

Nikolay Shmyrev in Распознавание речи
Не знаю я ещё не пробовал. По сути все эти реализации одинаковые, у них с другим проблемы - с интонацией правильной, например, а также с чтением редких слов и символов.
источник

NS

Nikolay Shmyrev in Распознавание речи
Разница только в скорости синтеза
источник