типо берем аудиодорожку в видео и распознаем о чем так идет речь
есть приложения которые в гугл отправляют, от туда идет текст.
но это не пакетная обработка, а надо потоково файл заливать, как будто говоришь.
ну можно еще в телефон это подключить и там распознавать.