Size: a a a

Natural Language Processing

2021 April 07

AK

Alexander Kukushkin in Natural Language Processing
источник

KS

Konstantin Smith in Natural Language Processing
Еще есть бесплатный CuneiForm, на порядок лучше какого-нибудь Tesseract
источник

KS

Konstantin Smith in Natural Language Processing
Они начинали вместе с  Abbyy, но потом сдулись. Но распознаёт хорошо!
источник

НК

Николай Карпенко... in Natural Language Processing
Что правда лучше, сто летней давности софтина?
источник

I

Ivan in Natural Language Processing
Всем привет! А кто-нибудь работал с Abbyy flexicapture? Или может есть у кого материалы по обучению?
источник

KS

Konstantin Smith in Natural Language Processing
Если найдете лучше из бесплатного, то дайте знать.
источник

НК

Николай Карпенко... in Natural Language Processing
https://github.com/ocropus/ocropy
У них есть кириллическая модель
https://github.com/ocropus/ocropy/wiki/Models
источник

НК

Николай Карпенко... in Natural Language Processing
http://asprise.com/royalty-free-library/python-ocr-api-overview.html

Recognizes 20+ languages such as English, Spanish, French, German, Italian, Hungarian, Finnish, Swedish, Romanian, Polish, Malay, Arabic, Indonesian, and Russian.
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Без торча старые пакеты без перспектив, easyocr хотя бы по тюнить можно
источник

וק

ולדימיר קון... in Natural Language Processing
у easy-ocr есть небольшая проблемка, там зависимость детекции текста в виде CRAFT (у которого нет тренировочного кода) и соответственно у самого easy-ocr нет готового тренировочного кода(при желании можно восстановить, там вся суть только в хорошей генерации синтетических данных) - что выливается в зависимость от автора. я отправлял ему словари по украинскому и белорусскому он быстро модели сделал. по ивриту, уже год прошел,  а самом лень. в детекции соответсвенно могут быть баги, которые конечно нужно тюнить на своих данных по хорошему если есть смешение цифр и букв и т.д. (хотя вроде крафт нормально справляется)
источник

וק

ולדימיר קון... in Natural Language Processing
есть еще keras-ocr на тензорфлоу, там нет языков, но думаю несложно сделать модельки, логика там похожая как у easy-ocr
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Это плохо, да, не разбирался. А есть нормальный пакет со всеми тренировками? Помню давно был textboxes
источник

GF

Grigory Frantsuzov in Natural Language Processing
нет языков в смысле тольок английский?
источник

וק

ולדימיר קון... in Natural Language Processing
ага  https://github.com/faustomorales/keras-ocr по дефолту там латиница. в принципе можно нагенерировать наверное данные   https://github.com/Belval/TextRecognitionDataGenerator и натренировать на своих
источник

GF

Grigory Frantsuzov in Natural Language Processing
вижу, спасибо
источник

Е

Егорка in Natural Language Processing
Спасибо большое ! Действительно покрывает большую часть типов. Но телефонные номера РФ, email и URL на кириллице не поддерживаются, а хотелось бы.
источник

Е

Егорка in Natural Language Processing
Так что буду рад, если кто-нибудь ещё сможет подсказать
источник

YB

Yuri Baburov in Natural Language Processing
Телефонные номера ищутся phonenumbers, емэйлы по собаке, для урлов пишется регулярка (там сложности только с точками, запятыми и скобками в конце -- относить ли их к урлу)
источник
2021 April 08

Е

Егорка in Natural Language Processing
Спасибо за библиотеку
источник

AC

Alexander C in Natural Language Processing
🚀 "SBERLOGA"
👨‍🔬 Доклад Прохор Гладких, Семен Сорокин, Даниил Водолазский, SberIDP:  "NER using Efficient Attention"
⌚ Пятница 9 апреля, 18:00 по Москве

Обсудим
* Обзор идей Efficient Attention
* Подробно о Longformer. Эксперименты Longformer + NER
* Подробно о Linear Transformer. Эксперименты Linear Transformer + NER

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogadataclub
Записи докладов на ютубе https://www.youtube.com/c/SBERLOGA

Looking for speakers - Мы постоянно проводим небольшие семинары, где можно поделиться своими знаниями по теме Data Science/Data Engineering. Чтобы обсудить тему вашего доклада нужно написать - @boyadzhi или @Alexander_V_C

Следите за объявлениями в
@sberloga
источник