Про расстановку интонаций и ударений я вкурсе, меня больше общий вид подобного интересует. Например где в типичном виде ТЗ вставляется тот же озвучиваемый текст
Что-то запутанно. Есть уже раскадровка и повременной сценарий озвучки? 3-4 столбца это всё занимает обычно: метки времени, звук, голос, ссылка. И число итераций подбора актера по произвольному ТЗ