тоже так и думал, но к примеру разбивать файл на "блоки" для дальнейшего лексического и синтаксического анализа это бесполезно, так как если попадать на середину файла и на какой-то токен типа строкового литерала нужно будет шагать назад дабы понять что за синтаксическая конструкция используется. Я думаю есть смысл только в том чтобы уже с готового дерева проводить кодогенерацию распределив процессы
да, конечно, ни текст, ни поток токенов не имеет смысла разбивать где попало. а список функций можно.
но у вас хорошая параллелизация должна быть даже при разбивке по файлам, если их много