"Подскажите, пожалуйста, может быть есть путь оптимальнее? Например, сразу пробовать с spacy? ранее с spacy не работал."
для SpaCy нужно меньше примеров, если брать обученную модель, вроде бы хороший результат даже если будет около сотни, дальше можно идти active learning
при этом никакой предварительной обработки не требуется
разметку можно делать через doccano, скоро к нему допишем модуль для автоматизации разметки
можете подсказать, как лучше организовать active learning часть на обученной модели:
Например, я обучил NER ru2 на 100+ файлах. Запускаю ее в работу.
Далее я хочу обновлять модель новыми тренировочными данными по уже старым лейблам (распознаванию которых обучил ранее). Как я понимаю, нет потребности добавлять в новые тренировочные данные старые, так как “catastrophic forgetting” problem актуальна, если бы я попытался добавить новые лейблы.
Например, раз в день я хочу обновлять модель на 5-10 тренировочных примерах. Тренировку я запускаю только с nlp.update, так как resume_training потребовалась бы мне при добавление новых лейблов, а begin_training сбрасывает веса и актуальна только для модели с нуля.
Или я, все же, некорректно понял документацию, и при продолжение тренировки надо вызывать resume_training, которая обращается к rehearse(), а также добавлять к новым данным - старые, на которых изначально обучал модель.