Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2759 membersпожаловаться на группу

2021 May 25

Ksenia in Natural Language Processing

он на русском разрабатывался опять же

источник

12:43пожаловаться #1

СИ

Сергей Ильин... in Natural Language Processing

🔥🔥🔥
Мэм, благодарю вас.

источник

12:45пожаловаться #2

Егорка in Natural Language Processing

Так люди по разному делают. Компромисс в точности и сложности.
Можно все слова через word2vec прогнать, сложить вложения слов для каждого текста. И потом кластеризовать на основе L2. Будет супербыстро работать. Но хз на сколько точно.
Можно, как описали выше, использовать BERT.
Попробуйте разные способы.

источник

12:45пожаловаться #3

СИ

Сергей Ильин... in Natural Language Processing

Русский. Длина каждого текста - 10-30 предложений, примерно.

источник

12:46пожаловаться #4

СИ

Сергей Ильин... in Natural Language Processing

Данке. Погружусь.

источник

12:46пожаловаться #5

Ksenia in Natural Language Processing

там как-то не супер много, конечно, но что.то есть

источник

12:47пожаловаться #6

Andrey in Natural Language Processing

оу, 10-30... посмотрите пакет sentence-transformers. у вас по сути текст, не предложения где можно работать со словами, а нужно с некоторой более высокоуровневной единицей

источник

12:48пожаловаться #7

СИ

Сергей Ильин... in Natural Language Processing

Видел его использование в одном из туториалов Кэггла. Спасибо за совет, его тоже покопаю.

источник

12:51пожаловаться #8

P B in Natural Language Processing

Посмотрите https://www.youtube.com/watch?v=F3jsMAI5EF4. Там же можете найти ссылки на скрипт Jupyter.

YouTube

Прикладное машинное обучение. Семинар 5. BERT for text classification

Ссылка на материалы занятия: https://github.com/girafe-ai/ml-mipt/tree/advanced_f20/week1_05_BERT_and_GPT

Плейлист с лекциями: https://www.youtube.com/playlist?list=PL4_hYwCyhAvY7k32D65q3xJVo8X8dc3Ye
Плейлист с семинарами: https://www.youtube.com/playlist?list=PL4_hYwCyhAvZLp0CTIDVQr9FtDR_7DaUr

Информация о курсе: https://ml-mipt.github.io/

Семинарист: Радослав Нейчев

Монтировал: Роман Климовицкий

источник

13:51пожаловаться #9

СИ

Сергей Ильин... in Natural Language Processing

Ого! И вам спасибо )

источник

13:53пожаловаться #10

Dmitriy in Natural Language Processing

подскажите, чем извлечь сущности из платежного поручения ?
может есть предобученные модели?

источник

14:07пожаловаться #11

Arsen Plus in Natural Language Processing

Привет! Никто не знает, есть ли в открытом доступе токенизация и лемматизация для арабского языка?

источник

14:07пожаловаться #12

Arsen Plus in Natural Language Processing

че-то ниче не могу найти

источник

14:07пожаловаться #13

Егорка in Natural Language Processing

Какие сущности ?

источник

14:10пожаловаться #14

Dmitriy in Natural Language Processing

сумма назначение платежа и т.д.

источник

14:10пожаловаться #15

Егорка in Natural Language Processing

Чекните список поддерживаемых типов здесь http://pullenti.ru/Document

источник

14:12пожаловаться #16

Dmitriy in Natural Language Processing

спасибо ушел смотреть

источник

14:15пожаловаться #17

Natalia in Natural Language Processing

ну как минимум у udpipe и stanza есть что-то

источник

14:35пожаловаться #18

Konstantin Smith in Natural Language Processing

Когда-то давно для задачи OCR я сделал типа универсального интерфейса (interface в терминологии C#\Java), который реализуют адаптеры над конкретными движками. В конечном приложении используется интерфейс, разумеется, чтобы отвязаться от реализации. Сделал адаптеры над CuneiForm, MODI, FR, позже Tisseract. Поскольку для слова (а некоторые и для букв) движки возвращают коэффициент уверенности, то я объединял результаты от разных движков, и комбинация CuneiForm + MODI давала результат не хуже, чем FR. Насчёт NER тоже хорошо бы что-либо подобное. Кстати, Apache предлагал такую универсальную спецификацию по обработке неструктурированных данных - стандарт UIMA. Он реализован на Java. Почему-то стандарт не получил достойной оценки, хотя мог бы...

источник

14:52пожаловаться #19

Arsen Plus in Natural Language Processing

спасибо!

источник

15:18пожаловаться #20