У меня подобная проблема была в одной страховой.
Там 100+ нестандартизированных форм заказ-нарядов от разных СТО приходило текстом, пдф или картинками. Нужно было вытаскивать инфу, заполнять формы и кидать в хранилище.
Постпроцессинг делал через кучу regexp + unit tests -> определял типовые блоки документа -> по типовым блокам вытаскивал инфу, потом отдельным слоем собирал форму