Size: a a a

Natural Language Processing

2021 May 25

K

Ksenia in Natural Language Processing
он на русском разрабатывался опять же
источник

СИ

Сергей Ильин... in Natural Language Processing
🔥🔥🔥
Мэм, благодарю вас.
источник

Е

Егорка in Natural Language Processing
Так люди по разному делают. Компромисс в точности и сложности.
Можно все слова через word2vec прогнать, сложить вложения слов для каждого текста. И потом кластеризовать на основе L2. Будет супербыстро работать. Но хз на сколько точно.
Можно, как описали выше, использовать BERT.
Попробуйте разные способы.
источник

СИ

Сергей Ильин... in Natural Language Processing
Русский. Длина каждого текста - 10-30 предложений, примерно.
источник

СИ

Сергей Ильин... in Natural Language Processing
Данке. Погружусь.
источник

K

Ksenia in Natural Language Processing
там как-то не супер много, конечно, но что.то есть
источник

A

Andrey in Natural Language Processing
оу, 10-30... посмотрите пакет sentence-transformers. у вас по сути текст, не предложения где можно работать со словами, а нужно с некоторой более высокоуровневной единицей
источник

СИ

Сергей Ильин... in Natural Language Processing
Видел его использование в одном из туториалов Кэггла. Спасибо за совет, его тоже покопаю.
источник

PB

P B in Natural Language Processing
Посмотрите https://www.youtube.com/watch?v=F3jsMAI5EF4. Там же можете найти ссылки на скрипт Jupyter.
источник

СИ

Сергей Ильин... in Natural Language Processing
Ого! И вам спасибо )
источник

D

Dmitriy in Natural Language Processing
подскажите, чем извлечь сущности  из платежного поручения ?
может есть предобученные модели?
источник

AP

Arsen Plus in Natural Language Processing
Привет! Никто не знает, есть ли в открытом доступе токенизация и лемматизация для арабского языка?
источник

AP

Arsen Plus in Natural Language Processing
че-то ниче не могу найти
источник

Е

Егорка in Natural Language Processing
Какие сущности ?
источник

D

Dmitriy in Natural Language Processing
сумма назначение платежа и т.д.
источник

Е

Егорка in Natural Language Processing
Чекните список поддерживаемых типов здесь http://pullenti.ru/Document
источник

D

Dmitriy in Natural Language Processing
спасибо ушел смотреть
источник

N

Natalia in Natural Language Processing
ну как минимум у udpipe и stanza есть что-то
источник

KS

Konstantin Smith in Natural Language Processing
Когда-то давно для задачи OCR я сделал типа универсального интерфейса (interface в терминологии C#\Java), который реализуют адаптеры над конкретными движками. В конечном приложении используется интерфейс, разумеется, чтобы отвязаться от реализации. Сделал адаптеры над CuneiForm, MODI, FR, позже Tisseract. Поскольку для слова (а некоторые и для букв) движки возвращают коэффициент уверенности, то я объединял результаты от разных движков, и комбинация CuneiForm + MODI давала результат не хуже, чем FR. Насчёт NER тоже хорошо бы что-либо подобное. Кстати, Apache предлагал такую универсальную спецификацию по обработке неструктурированных данных - стандарт UIMA. Он реализован на Java. Почему-то стандарт не получил достойной оценки, хотя мог бы...
источник

AP

Arsen Plus in Natural Language Processing
спасибо!
источник