Пока с лёту вижу два пути развития:
1. Запустить видео + поднять движок для записи звука, НО! с включенным процессингом голоса, чтоб откидывало видос.
2. Разделить видео и аудио. Поднять движок и в аутпут ноду кидать аудио для воспроизведения, а с инпут ноды забирать звук с микрофона. Тож с включенным войспроцессором.