Телеграмм чат группы natural_language_processing страница 636

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1478 membersпожаловаться на группу

2020 April 10

YS

Yehor Smoliakov in Natural Language Processing

End-to-end решения для такой задачи пока нет, а хотят многие. Может быть, есть наколеночные.
Нужны:
- качественный OCR для структурированных текстов (где данные для такого?): конвертация картинки в текст;
- доменный NER: выделение сущностей в тексте;
- и сверху регулярочки для выделения контекста сущностей.
Пример: "Стороны пришли к соглашению 10.09.2019". NER выделит дату "10.09.2019", регулярочки находит, что в эту дату было событие "пришли к соглашению".
Задачу можно разбивать и на компоненты, отличные от NER+регулярка, зависит от целевого атрибута.

Договора обычно в тексте пересылают. Даже если это ПДФ, то там будет текстовый слой.

источник

15:08пожаловаться #1

MM

Mikhail Mashkovich in Natural Language Processing

End-to-end решения для такой задачи пока нет, а хотят многие. Может быть, есть наколеночные.
Нужны:
- качественный OCR для структурированных текстов (где данные для такого?): конвертация картинки в текст;
- доменный NER: выделение сущностей в тексте;
- и сверху регулярочки для выделения контекста сущностей.
Пример: "Стороны пришли к соглашению 10.09.2019". NER выделит дату "10.09.2019", регулярочки находит, что в эту дату было событие "пришли к соглашению".
Задачу можно разбивать и на компоненты, отличные от NER+регулярка, зависит от целевого атрибута.

End-to-end тут не очень и возможен, потому что всем разное нужно. А для коробочного решения нужно, чтобы было много однотипных запросов было.

источник

15:12пожаловаться #2

MM

Mikhail Mashkovich in Natural Language Processing

На уровне SDK есть RCO FactExtractor, прикрутить к нему tesseract и pdftotext несложно. Ну и интерпретацию выдачи реализовать в нужном формате.

источник

15:14пожаловаться #3

SA

Sergei Ananyan in Natural Language Processing

Юридические документы можно качественно обрабатывать с помощью SDK от Megaputer. Есть онлайн демонстрация этой системы на tm.megaputer.ru. В дополнение к анализатору, у системе прилагается язык XPDL для написания правил по извлечению сущностей и фактов. Можно посмотреть обучающий курс про него: https://www.youtube.com/playlist?list=PLSvizcZfU8dSByziG8nu2mLAR-tyWQ_PL

PolyAnalyst Advanced Training - YouTube

источник

16:15пожаловаться #4

SA

Sergei Ananyan in Natural Language Processing

У Мегапьютера есть готовые наборы правил для извлечения многих часто встречаемых параметров из юридических документов.

источник

16:20пожаловаться #5

SA

Sergei Ananyan in Natural Language Processing

А teserract дает очень низкое качество распознавания текста, как правило абсолютно недостаточное для приемлемых решений. А если в договоре еще и таблицы есть, то лучше и не пробовать.

источник

16:22пожаловаться #6

MM

Mikhail Mashkovich in Natural Language Processing

А teserract дает очень низкое качество распознавания текста, как правило абсолютно недостаточное для приемлемых решений. А если в договоре еще и таблицы есть, то лучше и не пробовать.

Что лучше по качеству - FineReader или есть что-то еще?

источник

16:23пожаловаться #7

V

Vlad in Natural Language Processing

А teserract дает очень низкое качество распознавания текста, как правило абсолютно недостаточное для приемлемых решений. А если в договоре еще и таблицы есть, то лучше и не пробовать.

Я как-то пытался на tesseract сделать распознавание фоток чеков от кафешек, если отдавать весь текст ему на вход - работает не очень, а вот если текст разбить на строки - намного лучше. Да и вроде раньше в вики к нему и было написано, что он обучается в большинстве случаев распознавать отдельные строки с текстом, а не сразу всё

источник

16:31пожаловаться #8

V

Vlad in Natural Language Processing

Но вроде как знаки препинания и регистр букв на изображении он не определяет

источник

16:32пожаловаться #9

SA

Sergei Ananyan in Natural Language Processing

А teserract дает очень низкое качество распознавания текста, как правило абсолютно недостаточное для приемлемых решений. А если в договоре еще и таблицы есть, то лучше и не пробовать.

FineReader пока самое лучшее решение для распознавания текста по все нашим экспериментам.

источник

16:40пожаловаться #10

MM

Mikhail Mashkovich in Natural Language Processing

FineReader пока самое лучшее решение для распознавания текста по все нашим экспериментам.

В SDK версии или просто коробочный?

источник

16:40пожаловаться #11

SA

Sergei Ananyan in Natural Language Processing

И SDK и коробочный работают хорошо.

источник

16:41пожаловаться #12

KS

Konstantin Smith in Natural Language Processing

Есть отличный и "бесплатный" OCR, о котором мало кто знает. И встроен он в Microsoft Office. Да-да! Это MODI - Microsoft Office Document Imaging. Прекрасно работает с русским языком, есть API. Правда, в современные инсталляционные пакеты он с 2010 года не входит, однако спрятан в дистрибутиве SharePoint Designer (https://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=21581), который пока свободно можно скачать с сайта. При этом следует выбирать русскую версию, чтобы там был русский язык. Там можно отключить все опции, оставив только "Office Tools"\"Microsoft Office Document Imaging". Разумеется, FineReader лучше, зато этот - бесплатный, и на порядок лучше кривого tisseract. Есть мелкий нюанс: работает строго для одного языка. Если в тексте есть английские вставки, то в режиме "русский" будет их пытаться представить кириллицей. Я делал так: сначала для "русского", потом для "английского", а затем объединял результат (там для каждого слова даётся вероятность).

источник

16:45пожаловаться #13

YK

Yury Kitkevich in Natural Language Processing

Tesseract требует пред обработку изображения. Те же таблицы в документе которые мешают распознаванию текста можно удалить с помощью OpenCV.

источник

16:51пожаловаться #14

ES

Eugene Solomatin in Natural Language Processing

Ребята, подскажите хорошие ресурсы по обработке юридических документов на русском?
Чтобы умела искать в pdf-документах инфу по содержанию, атрибутам. Например, сроки, стороны договора и т.д.

Мы давно все сделали. Это очень банальная задача, включена уже 2 года назад как типовой узел у нас в систему Polyanalyst, www.megaputer.ru. Если нужны кейсы, пишите в личку.

источник

16:54пожаловаться #15

SA

Sergei Ananyan in Natural Language Processing

Konstantin Smith

Есть отличный и "бесплатный" OCR, о котором мало кто знает. И встроен он в Microsoft Office. Да-да! Это MODI - Microsoft Office Document Imaging. Прекрасно работает с русским языком, есть API. Правда, в современные инсталляционные пакеты он с 2010 года не входит, однако спрятан в дистрибутиве SharePoint Designer (https://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=21581), который пока свободно можно скачать с сайта. При этом следует выбирать русскую версию, чтобы там был русский язык. Там можно отключить все опции, оставив только "Office Tools"\"Microsoft Office Document Imaging". Разумеется, FineReader лучше, зато этот - бесплатный, и на порядок лучше кривого tisseract. Есть мелкий нюанс: работает строго для одного языка. Если в тексте есть английские вставки, то в режиме "русский" будет их пытаться представить кириллицей. Я делал так: сначала для "русского", потом для "английского", а затем объединял результат (там для каждого слова даётся вероятность).

Спасибо, попробуем на досуге

источник

16:58пожаловаться #16

GA

George A in Natural Language Processing

Всем спасибо за ответы! Посмотрю

источник

18:12пожаловаться #17

V

Vlad in Natural Language Processing

Всем привет, я тут задумался над ударениями в русских и английских именах и фамилиях, и вот не очень понятно, как это устроено в английском языке. Там такой же зоопарк из ударений или нет? Все примеры, что приходят в голову, имеют ударения на первом слоге. Может кто-нибудь сможет рассказать про это подробнее?

источник

18:27пожаловаться #18

A

Alexander in Natural Language Processing

Всем привет! Подскажите новичку, для классификации текста можно использовать матрицу tfidf или требуется сначала посчитать от нее косинусное расстояние? Как правильно?

источник

19:47пожаловаться #19

NS

Nikolay Shmyrev in Natural Language Processing

Всем привет, я тут задумался над ударениями в русских и английских именах и фамилиях, и вот не очень понятно, как это устроено в английском языке. Там такой же зоопарк из ударений или нет? Все примеры, что приходят в голову, имеют ударения на первом слоге. Может кто-нибудь сможет рассказать про это подробнее?

в английском языке с ударением тоже проблемы. можно скачать cmudict и посмотреть, там ударения проставлены.

источник

19:48пожаловаться #20