Всем привет!
Задача такая: есть изображения где в одну строку написан текст на русском(условно, кропы из паспорта, снилс и т.д.), его надо извлечь. Есть размеченный датасет из 3 тысяч таких картинок.
Датасет довольно небольшой и вот вопрос. Какой подход лучше использовать: разбивать сначала на слова и их распознавать, либо сразу текст со всего изображения?
Любые рекоммендации и комментарии будут полезны) сейчас использую CRAFT, который разбивает на слова(но часто делает это не очень хорошо) и надо дополнительно размечать кропы по словам, а кропы с целыми предложениями плохо поддаются обучению(так как мало обучающей выборки)