Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 November 03

Pavel Gulyaev in Natural Language Processing

В основном работают вокруг википедии, хотя это необязательно

источник

01:53пожаловаться #1

ВК

Владимир Кузовкин... in Natural Language Processing

спасибо еще раз за небольшую лекцию!!

источник

10:12пожаловаться #2

Aigerim Zhubayeva in Natural Language Processing

Здравствуйте! Не подскажите классификация технической спецификации тендерной документации насколько сложно будет классифицировать в два класса "Разработка ПО" и "Остальное"? Тест бывает довольно большим, умею только усреднять эбмеддинги по предложений. В какую сторону копать? Может есть предобученные модели, которые можно дообучить. Благодарю

источник

12:05пожаловаться #3

Alex Mak in Natural Language Processing

Тетрадок в сети с готовым кодом лежит куча, т к задача text classification одна из самых «классических».
Разве что в вашем случае к поисковому запросу нужно добавить long text, но я бы на вашем месте начинал с изучения кода для «просто» классификации.

источник

12:14пожаловаться #4

Aigerim Zhubayeva in Natural Language Processing

Спасибо!

источник

12:21пожаловаться #5

Alex Mak in Natural Language Processing

Вот первые 2 ссылки в поисковой выдаче по запросу "fine tune huggingface transformer model for text classification":
https://huggingface.co/transformers/custom_datasets.html
https://www.thepythoncode.com/article/finetuning-bert-using-huggingface-transformers-python

huggingface.co

Fine-tuning with custom datasets

State-of-the-art Natural Language Processing for PyTorch and TensorFlow 2.0. Transformers provides thousands of pretrained models to perform tasks on texts such as classification, information extraction, question answering, summarization, translation, text generation, etc in 100+ languages. Its aim is to make cutting-edge NLP easier to use for everyone

источник

12:22пожаловаться #6

Aigerim Zhubayeva in Natural Language Processing

Я сама собираю данные, скорее всего думаю для нейронок будет мало.

источник

12:24пожаловаться #7

Alex Mak in Natural Language Processing

А как много данных есть?
Просто если всего 2 категории, то может завестись и на небольшом датасете.

источник

12:25пожаловаться #8

Aigerim Zhubayeva in Natural Language Processing

200 доков искомой категории и 500 остальных.

источник

12:30пожаловаться #9

2021 November 04

Alex Mak in Natural Language Processing

Коллеги, а не встречал ли кто-то longformer или reformer или какую другую модель для длинных текстов обученную на русском корпусе? Или хотя бы мультиязычную?

источник

12:36пожаловаться #10

David Dale in Natural Language Processing

А насколько длинные тексты?
У меня сейчас варится rubert-tiny на 2000 токенов.

источник

12:37пожаловаться #11

David Dale in Natural Language Processing

Ну и какая нужна модель - энкодер, декодер, или seq2seq?

источник

12:37пожаловаться #12

Alex Mak in Natural Language Processing

Есть ощущение, что 2к токенов вполне может хватить! )
В крайнем случае обрезать буду или из середины или с конца брать. Но все равно в сравнении с 512 это уже сильно лучше.

источник

12:39пожаловаться #13

Alex Mak in Natural Language Processing

Мне нужно решать задачу схожести текстов.

источник

12:39пожаловаться #14

Below Zero in Natural Language Processing

Коллеги, привет!
Задача такая - исправлять склонение, пропущенные предлоги и капс. "Купить полиэтилен москва" -> "Купить полиэтилен в Москве"
Есть ли готовые решения на эту тему или надо собирать все по частям?

источник

13:04пожаловаться #15

David Dale in Natural Language Processing

https://huggingface.co/cointegrated/rut5-small-normalizer я обучал ровно на эту задачу

источник

13:13пожаловаться #16

David Dale in Natural Language Processing

Значит, нужен энкодер)
Попробуй https://huggingface.co/cointegrated/rubert-tiny2.
Я её в явном виде не обучал энкодить длинные тексты в вектор, но для предложений она прям хорошие эмбеддинги выдаёт, а на длинных текстах неплохо может в MLM. Поэтому, думаю, и на длинных текстах она схожесть худо-бедно сможет оценивать.
Хотя в моём личном опыте для длинных текстов и bag of words позволяет сходство оценивать неплохо.

источник

13:17пожаловаться #17

Alex Mak in Natural Language Processing

Спасибо!

источник

13:24пожаловаться #18

Alex in Natural Language Processing

Здравствуйте. Подскажите, пожалуйста, а какие есть общедоступные корпуса для задачи НЕР для русского? Нашел большой корпус Наташа, но он я так понимаю размечен полуавтоматом. Есть что то типа аналога CoNNL для английского (размечен людьми и небольшого размера)?

источник

14:09пожаловаться #19

Natalia in Natural Language Processing

вроде были таски разные на мультиязычный NER, там может быть (вроде из последних дорожек на Balto-Slavic NLP было что-то, мне кажется)

источник

15:05пожаловаться #20