Друзья, поделитесь, пожалуйста, опытом. Вероятно, данный вопрос выходит за рамки обсуждаемых вопросов в сфере NLP, но, возможно, у кого-то был подобный опыт.
Я тренирую сейчас собственную OCR на базе CRNN сети для распознавание текста на документах. Сама OCR работает уже более-менее сносно, следующий шаг находить на изображении сам документ и выделять оттуда области, в которых содержатся искомые данные, вырезать оттуда кусок и передавать на вход нейронной сети. Сразу попробовал сделать еще одну nn для scene-text-detection, но результаты так себе. Сейчас пока думаю, что делать дальше - либо дотренировывать сеть, которая отвечает за выделение блоков с текстом, либо пришла еще идея посмотреть в сторону object detection. Так как документ вполне шаблонный, там есть общая часть и в определенных местах просто прописываются искомые данные, то можно ли свести эту задачу к поиску объектов на фото? Ну, к примеру, разметить на фото блок "фио", "дата рождения" и т. д. Поймет ли CRNN сеть контекст? Сможет ли она понимать конкретные участки шаблонного документа?