Всем привет. Вероятно, вопрос не совсем по теме, но подобласть та же. Я сейчас подбираю решение для синтеза речи, в наличии есть датасеты на примерно 5 часов женской речи и 20 часов мужской, это для тестов (могу завтра дать ссылки, если надо).
Сейчас остановился на связке tacotron2+lpcnet на выходе. Быть может, есть более качественное решение?
На своих данных ещё не обучал, пока что подбираю решение.
Из железа есть 1070ti и 2080ti, оперативы 252Гб (собиралось под другие проекты с нейронками).
Опыта в синтезе речи нету, только в классификации текста/речи (делал определение пола человека по речи, эмоций по тексту и речи, идентификацию по голосу)