Size: a a a

Natural Language Processing

2020 April 10

YS

Yehor Smoliakov in Natural Language Processing
Mary
End-to-end решения для такой задачи пока нет, а хотят многие. Может быть, есть наколеночные.
Нужны:
- качественный OCR для структурированных текстов (где данные для такого?): конвертация  картинки в текст;
- доменный NER: выделение сущностей в тексте;
- и сверху регулярочки для выделения контекста сущностей.
Пример: "Стороны пришли к соглашению 10.09.2019". NER выделит дату "10.09.2019", регулярочки находит, что в эту дату было событие "пришли к соглашению".
Задачу можно разбивать и на компоненты, отличные от NER+регулярка, зависит от целевого атрибута.
Договора обычно в тексте пересылают. Даже если это ПДФ, то там будет текстовый слой.
источник

MM

Mikhail Mashkovich in Natural Language Processing
Mary
End-to-end решения для такой задачи пока нет, а хотят многие. Может быть, есть наколеночные.
Нужны:
- качественный OCR для структурированных текстов (где данные для такого?): конвертация  картинки в текст;
- доменный NER: выделение сущностей в тексте;
- и сверху регулярочки для выделения контекста сущностей.
Пример: "Стороны пришли к соглашению 10.09.2019". NER выделит дату "10.09.2019", регулярочки находит, что в эту дату было событие "пришли к соглашению".
Задачу можно разбивать и на компоненты, отличные от NER+регулярка, зависит от целевого атрибута.
End-to-end тут не очень и возможен, потому что всем разное нужно. А для коробочного решения нужно, чтобы было много однотипных запросов было.
источник

MM

Mikhail Mashkovich in Natural Language Processing
На уровне SDK есть RCO FactExtractor, прикрутить к нему tesseract и pdftotext несложно. Ну и интерпретацию выдачи реализовать в нужном формате.
источник

SA

Sergei Ananyan in Natural Language Processing
Юридические документы можно качественно обрабатывать с помощью SDK от Megaputer. Есть онлайн демонстрация этой системы на tm.megaputer.ru. В дополнение к анализатору, у системе прилагается язык XPDL для написания правил по извлечению сущностей и фактов. Можно посмотреть обучающий курс про него: https://www.youtube.com/playlist?list=PLSvizcZfU8dSByziG8nu2mLAR-tyWQ_PL
источник

SA

Sergei Ananyan in Natural Language Processing
У Мегапьютера есть готовые наборы правил для извлечения многих часто встречаемых параметров из юридических документов.
источник

SA

Sergei Ananyan in Natural Language Processing
А teserract дает очень низкое качество распознавания текста, как правило абсолютно недостаточное для приемлемых решений. А если в договоре еще и таблицы есть, то лучше и не пробовать.
источник

MM

Mikhail Mashkovich in Natural Language Processing
Sergei Ananyan
А teserract дает очень низкое качество распознавания текста, как правило абсолютно недостаточное для приемлемых решений. А если в договоре еще и таблицы есть, то лучше и не пробовать.
Что лучше по качеству - FineReader или есть что-то еще?
источник

V

Vlad in Natural Language Processing
Sergei Ananyan
А teserract дает очень низкое качество распознавания текста, как правило абсолютно недостаточное для приемлемых решений. А если в договоре еще и таблицы есть, то лучше и не пробовать.
Я как-то пытался на tesseract сделать распознавание фоток чеков от кафешек, если отдавать весь текст ему на вход - работает не очень, а вот если текст разбить на строки - намного лучше. Да и вроде раньше в вики к нему и было написано, что он обучается в большинстве случаев распознавать отдельные строки с текстом, а не сразу всё
источник

V

Vlad in Natural Language Processing
Но вроде как знаки препинания и регистр букв на изображении он не определяет
источник

SA

Sergei Ananyan in Natural Language Processing
Sergei Ananyan
А teserract дает очень низкое качество распознавания текста, как правило абсолютно недостаточное для приемлемых решений. А если в договоре еще и таблицы есть, то лучше и не пробовать.
FineReader пока самое лучшее решение для распознавания текста по все нашим экспериментам.
источник

MM

Mikhail Mashkovich in Natural Language Processing
Sergei Ananyan
FineReader пока самое лучшее решение для распознавания текста по все нашим экспериментам.
В SDK версии или просто коробочный?
источник

SA

Sergei Ananyan in Natural Language Processing
И SDK и коробочный работают хорошо.
источник

KS

Konstantin Smith in Natural Language Processing
Есть отличный и "бесплатный" OCR, о котором мало кто знает. И встроен он в Microsoft Office. Да-да! Это MODI - Microsoft Office Document Imaging. Прекрасно работает с русским языком, есть API. Правда, в современные инсталляционные пакеты он с 2010 года не входит, однако спрятан в дистрибутиве SharePoint Designer (https://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=21581), который пока свободно можно скачать с сайта.  При этом следует выбирать русскую версию, чтобы там был русский язык.  Там можно отключить все опции, оставив только "Office Tools"\"Microsoft Office Document Imaging".  Разумеется, FineReader лучше, зато этот - бесплатный, и на порядок лучше кривого tisseract. Есть мелкий нюанс: работает строго для одного языка. Если в тексте есть английские вставки, то в режиме "русский" будет их пытаться представить кириллицей. Я делал так: сначала для "русского", потом для "английского", а затем объединял результат (там для каждого слова даётся вероятность).
источник

YK

Yury Kitkevich in Natural Language Processing
Tesseract требует пред обработку изображения. Те же таблицы в документе которые мешают распознаванию текста можно  удалить  с помощью OpenCV.
источник

ES

Eugene Solomatin in Natural Language Processing
George A
Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.
Мы давно все сделали.  Это очень банальная  задача, включена уже 2 года назад как типовой узел у  нас в систему Polyanalyst, www.megaputer.ru.  Если нужны кейсы, пишите в личку.
источник

SA

Sergei Ananyan in Natural Language Processing
Konstantin Smith
Есть отличный и "бесплатный" OCR, о котором мало кто знает. И встроен он в Microsoft Office. Да-да! Это MODI - Microsoft Office Document Imaging. Прекрасно работает с русским языком, есть API. Правда, в современные инсталляционные пакеты он с 2010 года не входит, однако спрятан в дистрибутиве SharePoint Designer (https://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=21581), который пока свободно можно скачать с сайта.  При этом следует выбирать русскую версию, чтобы там был русский язык.  Там можно отключить все опции, оставив только "Office Tools"\"Microsoft Office Document Imaging".  Разумеется, FineReader лучше, зато этот - бесплатный, и на порядок лучше кривого tisseract. Есть мелкий нюанс: работает строго для одного языка. Если в тексте есть английские вставки, то в режиме "русский" будет их пытаться представить кириллицей. Я делал так: сначала для "русского", потом для "английского", а затем объединял результат (там для каждого слова даётся вероятность).
Спасибо, попробуем на досуге
источник

GA

George A in Natural Language Processing
Всем спасибо за ответы! Посмотрю
источник

V

Vlad in Natural Language Processing
Всем привет, я тут задумался над ударениями в русских и английских именах и фамилиях, и вот не очень понятно, как это устроено в английском языке. Там такой же зоопарк из ударений или нет? Все примеры, что приходят в голову, имеют ударения на первом слоге. Может кто-нибудь сможет рассказать про это подробнее?
источник

A

Alexander in Natural Language Processing
Всем привет! Подскажите новичку, для классификации текста можно использовать матрицу tfidf или требуется сначала посчитать от нее косинусное расстояние? Как правильно?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Vlad
Всем привет, я тут задумался над ударениями в русских и английских именах и фамилиях, и вот не очень понятно, как это устроено в английском языке. Там такой же зоопарк из ударений или нет? Все примеры, что приходят в голову, имеют ударения на первом слоге. Может кто-нибудь сможет рассказать про это подробнее?
в английском языке с ударением тоже проблемы. можно скачать cmudict и посмотреть, там ударения проставлены.
источник