Делал на коленке подобную штуку в дополнении к тулзе снимающей скриншоты с телефонов на Android.
Задача была по скриншоту понять что за пользователь и какие данные у него на скриншоте, результат в текстовом виде сохранить в базу.
В тупую даже коммерческий ocr не подошёл (abby). А вот Питон + opencv а за ним tessaract уже ок. Опенcv блоки хорошо ищет по картинке и разбивает на подкартинки которые уже скармливаются распознавателю текста.
Но у меня клиенты были с разными мобилами (разрешение телефона, шрифты разные), иногда страницы ниже/выше и тд были открыты. Отсюда сложности.
Ну в целом наверное да, но это если Ты либу для сторонних решений даёшь. У меня-то задача по работе со сложным интерфейсом собственной разработки. Я там хозяин и всё знаю. Зачем мне его склеивать в картинку, а потом расклеивать сложными алгоритмами?