Коллеги, у меня огромный текстовый файл, который (не спрашивайте почему) нельзя поделить на части. Spacy виснет на стадии парсера nlp(doc) может есть какой-то ленивый способ этого избежать?
нету такого способа, там же последовательный процессинг идёт по длине текста.
но вы можете в одном потоке сделать парсер, в другом NER — они независимы, общий только токенизатор, а вектора каждый раз заново просто загрузятся.
но вы можете поделить по абзацам, или просто по N токенов, тогда потери будут минимальны, и тем меньше, чем больше это N.