Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.
End-to-end решения для такой задачи пока нет, а хотят многие. Может быть, есть наколеночные.
Нужны:
- качественный OCR для структурированных текстов (где данные для такого?): конвертация картинки в текст;
- доменный NER: выделение сущностей в тексте;
- и сверху регулярочки для выделения контекста сущностей.
Пример: "Стороны пришли к соглашению 10.09.2019". NER выделит дату "10.09.2019", регулярочки находит, что в эту дату было событие "пришли к соглашению".
Задачу можно разбивать и на компоненты, отличные от NER+регулярка, зависит от целевого атрибута.