Size: a a a

Natural Language Processing

2021 November 03

PG

Pavel Gulyaev in Natural Language Processing
В основном работают вокруг википедии, хотя это необязательно
источник

ВК

Владимир Кузовкин... in Natural Language Processing
спасибо еще раз за небольшую лекцию!!
источник

AZ

Aigerim Zhubayeva in Natural Language Processing
Здравствуйте! Не подскажите классификация технической спецификации тендерной документации насколько сложно будет классифицировать в два класса "Разработка ПО" и "Остальное"? Тест бывает довольно большим, умею только усреднять эбмеддинги по предложений. В какую сторону копать? Может есть предобученные модели, которые можно дообучить. Благодарю
источник

AM

Alex Mak in Natural Language Processing
Тетрадок в сети с готовым кодом лежит куча, т к задача text classification одна из самых «классических».
Разве что в вашем случае к поисковому запросу нужно добавить long text, но я бы на вашем месте начинал с изучения кода для «просто» классификации.
источник

AZ

Aigerim Zhubayeva in Natural Language Processing
Спасибо!
источник

AM

Alex Mak in Natural Language Processing
Вот первые 2 ссылки в поисковой выдаче по запросу "fine tune huggingface transformer model for text classification":
https://huggingface.co/transformers/custom_datasets.html
https://www.thepythoncode.com/article/finetuning-bert-using-huggingface-transformers-python
источник

AZ

Aigerim Zhubayeva in Natural Language Processing
Я сама собираю данные, скорее всего думаю для нейронок будет мало.
источник

AM

Alex Mak in Natural Language Processing
А как много данных есть?
Просто если всего 2 категории, то может завестись и на небольшом датасете.
источник

AZ

Aigerim Zhubayeva in Natural Language Processing
200 доков искомой категории и 500 остальных.
источник
2021 November 04

AM

Alex Mak in Natural Language Processing
Коллеги, а не встречал ли кто-то longformer или reformer или какую другую модель для длинных текстов обученную на русском корпусе? Или хотя бы мультиязычную?
источник

DD

David Dale in Natural Language Processing
А насколько длинные тексты?
У меня сейчас варится rubert-tiny на 2000 токенов.
источник

DD

David Dale in Natural Language Processing
Ну и какая нужна модель - энкодер, декодер, или seq2seq?
источник

AM

Alex Mak in Natural Language Processing
Есть ощущение, что 2к токенов вполне может хватить! )
В крайнем случае обрезать буду или из середины или с конца брать. Но все равно в сравнении с 512 это уже сильно лучше.
источник

AM

Alex Mak in Natural Language Processing
Мне нужно решать задачу схожести текстов.
источник

BZ

Below Zero in Natural Language Processing
Коллеги, привет!
Задача такая - исправлять склонение, пропущенные предлоги и капс. "Купить полиэтилен москва" -> "Купить полиэтилен в Москве"
Есть ли готовые решения на эту тему или надо собирать все по частям?
источник

DD

David Dale in Natural Language Processing
https://huggingface.co/cointegrated/rut5-small-normalizer я обучал ровно на эту задачу
источник

DD

David Dale in Natural Language Processing
Значит, нужен энкодер)
Попробуй https://huggingface.co/cointegrated/rubert-tiny2.
Я её в явном виде не обучал энкодить длинные тексты в вектор, но для предложений она прям хорошие эмбеддинги выдаёт, а на длинных текстах неплохо может в MLM. Поэтому, думаю, и на длинных текстах она схожесть худо-бедно сможет оценивать.
Хотя в моём личном опыте для длинных текстов  и bag of words позволяет сходство оценивать неплохо.
источник

AM

Alex Mak in Natural Language Processing
Спасибо!
источник

A

Alex in Natural Language Processing
Здравствуйте. Подскажите, пожалуйста, а какие есть общедоступные корпуса для задачи НЕР для русского? Нашел большой корпус Наташа, но он я так понимаю размечен полуавтоматом. Есть что то типа аналога CoNNL для английского (размечен людьми и небольшого размера)?
источник

N

Natalia in Natural Language Processing
вроде были таски разные на мультиязычный NER, там может быть (вроде из последних дорожек на Balto-Slavic NLP было что-то, мне кажется)
источник