Size: a a a

Natural Language Processing

2021 November 26

IG

Ilya Gusev in Natural Language Processing
Если цель просто найти редкие слова - IDF достаточно
источник

A

Alexander in Natural Language Processing
А я понял почему, спасибо!
источник
2021 November 27

YB

Yuri Baburov in Natural Language Processing
Редких слов недостаточно: вдруг у вас где-то в "INFO: Processing entry 12345: Арбуз" в логе данные проскакивают, тогда оно будет на такие данные триггериться.
Тогда без кластеризации не обойтись. Можно делать аналог word2vec и его кластеризацию, и потом определять нормальные кластера и неправильные кластера. И вообще не кластера.
источник

VL

Valery Lazarev in Natural Language Processing
Если вначале всегда вот так указана дата, я бы её вообще не брал в векторизацию.
Превратить её во время и поставить временной индекс датафрейму.
Даже год можно добавить, если знаете год последнего месяца в логах.
источник

N

Nikolay in Natural Language Processing
Добрый день. Подскажите, чем кроме Наташи, можно разбить на части русскоязычные адреса, по своим условиям?
источник

KS

Konstantin Smith in Natural Language Processing
Sdk Pullenti Address
источник

DE

Dmitrii Evdokimov in Natural Language Processing
Добрый день, есть ли какие-либо средства для извлечения смысла предложения?
источник

A

Andrey in Natural Language Processing
вагон и маленькая тележка годных начиная с конца 2017 (появления BERT). приконкретизируйте немного задачу
источник

DE

Dmitrii Evdokimov in Natural Language Processing
Необходимо, чтобы программа переформулировала данное ей предложение и смысл чтобы не терялся. В лучшем случае, чтобы могла находить противоречия в предложении
источник

d

dePuff in Natural Language Processing
А можно пример первой и второй задачи?
источник

d

dePuff in Natural Language Processing
Первое похоже на парафрайзинг
источник

A

Andrey in Natural Language Processing
1. с парафразом много решений. одно из, например, https://huggingface.co/cointegrated/rut5-base-multitask
2. вообще по идее bert из коробки то и решает. любые модели с вложениями и косинусное расстояние
источник

A

Andrey in Natural Language Processing
насчёт второго не уверен что верно понял правда
источник

DE

Dmitrii Evdokimov in Natural Language Processing
Вторая задача, пример: Высшая математика - это так интересно и увлекательно, что я даже успел заснуть
источник

d

dePuff in Natural Language Processing
Боюсь, такую задачу сносно решают модели, которым видеокарточка на 512Гб нужна для рефереса, а сборка данных для файнтюнинга обойдётся в миллион-другой рублей )
источник

DE

Dmitrii Evdokimov in Natural Language Processing
Я думал можно каждое слово на онтологию разбивать, к какой сфере или к какому общему понятию относится и сравнивать каждое слово в предложении
источник

A

Andrey in Natural Language Processing
побить предложение на куски хоть через https://huggingface.co/cointegrated/rubert-tiny и посмотреть косинусом, вяжутся или нет
источник

DE

Dmitrii Evdokimov in Natural Language Processing
О, интересно
источник

DE

Dmitrii Evdokimov in Natural Language Processing
Спасибо
источник

A

Andrey in Natural Language Processing
источник