Size: a a a

Natural Language Processing

2020 August 05

V

Vic in Natural Language Processing
Денис Бессонов
Привет. У меня стартап - приложение для обучения и развития детей от 3 до 6 лет с помощью известных персонажей из мф. Нужен специалист в команду по natural language processing. Было бы вам интересно или подскажите к кому могу обратиться?
ко мне
источник

SY

Sameep Yadav in Natural Language Processing
Does someone know how  to convert OQL to SQL ???
источник

I

I Апрельский... in Natural Language Processing
Ребят, а как OCR с языковыми моделями на практике соединяют для исправления ошибок распознавания?
источник

N

Nire in Natural Language Processing
I Апрельский
Ребят, а как OCR с языковыми моделями на практике соединяют для исправления ошибок распознавания?
У меня есть форма пдф, она унифицированная в отделах компании. Когда оператор составляет форму, может ошибиться в названии отдела или в орфографии.
Когда оператор грузит пдф в систему, мидлвар его сканит и ищет популярные ошибки. Например не тот формат даты.
источник

N

Nire in Natural Language Processing
Ну если я правильно вопрос понял
источник

I

I Апрельский... in Natural Language Processing
не совсем про это. но тоже релевантно. то есть ошибки ищутся автоматически, но исправляются потом руками?
источник

N

Nire in Natural Language Processing
I Апрельский
не совсем про это. но тоже релевантно. то есть ошибки ищутся автоматически, но исправляются потом руками?
Да, идёт подсветка ошибки
источник

N

Nire in Natural Language Processing
Юзаем связку reportlab (отображение, Natasha для всякого поиска, tesseract +opencv для скана пдф, плюс регулярочки для проверок.)
источник

I

I Апрельский... in Natural Language Processing
ща будут вопросы!
1) а что ищете наташей?
2) зачем opencv? для препроцессинга сканов?
3) регулярки для проверки на ошибки? а опечатки и кривые символы от распознавание? O вместо нуля например?
источник

N

Nire in Natural Language Processing
I Апрельский
ща будут вопросы!
1) а что ищете наташей?
2) зачем opencv? для препроцессинга сканов?
3) регулярки для проверки на ошибки? а опечатки и кривые символы от распознавание? O вместо нуля например?
Наташей ищем даты и имена для выставления тегов для дальнейшего поиска.
Опенсв это препроцессинг сканов, затем выделение областей сканов (унифицированная форма), и оттуда вытягиваем спец текст (например номера накладных, разные сервис данные, кому или куда)
Регулярки для выделения по тексту спец совпадений. Например у нас есть товар(какой-то параметр), вот регулярки ищут скобки и текст вытаскивают.
источник

N

Nire in Natural Language Processing
Работает на 70%, но облегчило документооборот сильно
источник

I

I Апрельский... in Natural Language Processing
а зачем сканить, кстати, почему не электронное просто?
источник

N

Nire in Natural Language Processing
I Апрельский
а зачем сканить, кстати, почему не электронное просто?
Мы старые доки тоже вводим
источник

N

Nire in Natural Language Processing
По новым уже сами забивают сразу нормально
источник

N

Nire in Natural Language Processing
По новым докам магии языковой нет, там все автоматом из форм загружается
источник

I

I Апрельский... in Natural Language Processing
спасибо! вот интересно как бы автоматически ошибки исправлять. и есть ожидание, что для OCR есть специальные спеллчекеры.
источник

N

Nire in Natural Language Processing
I Апрельский
спасибо! вот интересно как бы автоматически ошибки исправлять. и есть ожидание, что для OCR есть специальные спеллчекеры.
Это всё готово в платных решениях
источник

N

Nire in Natural Language Processing
Мы свой аналог сделали, чтобы не платить, или чтобы не выгружать никуда
источник

I

I Апрельский... in Natural Language Processing
верю. хочет для себя на коленке сделать :)
источник

э

эдуард in Natural Language Processing
I Апрельский
спасибо! вот интересно как бы автоматически ошибки исправлять. и есть ожидание, что для OCR есть специальные спеллчекеры.
pyaspeller пробовал?
источник