Друзья, прошу совета. Есть задача распознавания текста на сканах старых рукописных книг. Если изображение сегментировано по словам, то дообученный тессеракт сносно справляется, и сейчас задача - сегментировать отдельные слова. Желательно также классифицировать отдельно даты и имена собственные.
Буду благодарен за советы, какую модель лучше использовать, возможно есть какие то хорошие практики для решения подобных задач.
Размеченных данных не так много, около 100 листов, но на каждом листе порядка 200 слов
В данный момент я пытаюсь обучить frcnn, но мне кажется данных для такого маловато