Телеграмм чат группы natural_language

http://asprise.com/royalty-free-library/python-ocr-api-overview.html

Recognizes 20+ languages such as English, Spanish, French, German, Italian, Hungarian, Finnish, Swedish, Romanian, Polish, Malay, Arabic, Indonesian, and Russian.

Asprise

Asprise Python OCR SDK - royalty-free API library with source code examples converting images to word or searchable PDF by extracting text

Asprise Python OCR library offers a royalty-free API that converts images (in formats like JPEG, PNG, TIFF, PDF, etc.)
into editable document formats Word, XML, searchable PDF, etc.) by extracting text and barcode information.
With our scanning component, you can perform direct scanner to editable document transformation.

источник

10:13пожаловаться #8

Nikolay V. Shmyrev in Natural Language Processing

Без торча старые пакеты без перспектив, easyocr хотя бы по тюнить можно

источник

10:14пожаловаться #9

וק

ולדימיר קון... in Natural Language Processing

у easy-ocr есть небольшая проблемка, там зависимость детекции текста в виде CRAFT (у которого нет тренировочного кода) и соответственно у самого easy-ocr нет готового тренировочного кода(при желании можно восстановить, там вся суть только в хорошей генерации синтетических данных) - что выливается в зависимость от автора. я отправлял ему словари по украинскому и белорусскому он быстро модели сделал. по ивриту, уже год прошел, а самом лень. в детекции соответсвенно могут быть баги, которые конечно нужно тюнить на своих данных по хорошему если есть смешение цифр и букв и т.д. (хотя вроде крафт нормально справляется)

источник

10:25пожаловаться #10

וק

ולדימיר קון... in Natural Language Processing

есть еще keras-ocr на тензорфлоу, там нет языков, но думаю несложно сделать модельки, логика там похожая как у easy-ocr

источник

10:27пожаловаться #11

Nikolay V. Shmyrev in Natural Language Processing

Это плохо, да, не разбирался. А есть нормальный пакет со всеми тренировками? Помню давно был textboxes

источник

10:27пожаловаться #12

Grigory Frantsuzov in Natural Language Processing

нет языков в смысле тольок английский?

источник

11:22пожаловаться #13

וק

ולדימיר קון... in Natural Language Processing

ага https://github.com/faustomorales/keras-ocr по дефолту там латиница. в принципе можно нагенерировать наверное данные https://github.com/Belval/TextRecognitionDataGenerator и натренировать на своих

GitHub

faustomorales/keras-ocr

A packaged and flexible version of the CRAFT text detector and Keras CRNN recognition model. - faustomorales/keras-ocr

источник

11:25пожаловаться #14

Grigory Frantsuzov in Natural Language Processing

вижу, спасибо

источник

11:25пожаловаться #15

Егорка in Natural Language Processing

Спасибо большое ! Действительно покрывает большую часть типов. Но телефонные номера РФ, email и URL на кириллице не поддерживаются, а хотелось бы.

источник

12:29пожаловаться #16

Егорка in Natural Language Processing

Так что буду рад, если кто-нибудь ещё сможет подсказать

источник

12:30пожаловаться #17

Yuri Baburov in Natural Language Processing

Телефонные номера ищутся phonenumbers, емэйлы по собаке, для урлов пишется регулярка (там сложности только с точками, запятыми и скобками в конце -- относить ли их к урлу)

источник

23:12пожаловаться #18

2021 April 08

Егорка in Natural Language Processing

Спасибо за библиотеку

источник

00:59пожаловаться #19

Alexander C in Natural Language Processing

🚀 "SBERLOGA"
👨‍🔬 Доклад Прохор Гладких, Семен Сорокин, Даниил Водолазский, SberIDP: "NER using Efficient Attention"
⌚ Пятница 9 апреля, 18:00 по Москве

Обсудим
* Обзор идей Efficient Attention
* Подробно о Longformer. Эксперименты Longformer + NER
* Подробно о Linear Transformer. Эксперименты Linear Transformer + NER

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogadataclub
Записи докладов на ютубе https://www.youtube.com/c/SBERLOGA

Looking for speakers - Мы постоянно проводим небольшие семинары, где можно поделиться своими знаниями по теме Data Science/Data Engineering. Чтобы обсудить тему вашего доклада нужно написать - @boyadzhi или @Alexander_V_C

Следите за объявлениями в
@sberloga

источник

16:08пожаловаться #20