Это уже пахнет черной магией и машинным обучением, а задача выглядит достаточно специфичной, чтобы что-то работало из коробки
чтение текста с изображения ему надо, как я понял, не нужно там машинного обучения, на сколько мне известно, но как именно это делается - я без понятия=)