Я просто раньше тоже думал о таком способе надыбать данных для обучения синтеза речи, почти нашёл готовое решение, но мне запретили, ибо нужно покупать лецензию у издательства аудиокниги, что мол они не против использования голосов их дикторов для нашего синтеза речи)
Николай, доброго вечера, подскажите пожалуйста. Аудио файл 8к и тот же файл, преобразованный с помощью ffmpeg в 16к. При этом 16к, в первом приближении, распознает лучше. Проверял на Вашей модели.
Я просто раньше тоже думал о таком способе надыбать данных для обучения синтеза речи, почти нашёл готовое решение, но мне запретили, ибо нужно покупать лецензию у издательства аудиокниги, что мол они не против использования голосов их дикторов для нашего синтеза речи)
А зря запретили, голоса потом подкручивать можно 😉