Size: a a a

Natural Language Processing

2021 November 27

A

Andrey in Natural Language Processing
good luck... сарказм не всегда когда по смыслу предложения противоречат. в части случаев-то да. но даже какой один (не тот) смайл может перевернуть всю картину
источник

A

Andrey in Natural Language Processing
болен того, два человека могут воспринимать по-разному. для одного сарказм, для другого факт. нужен обширный или наоборот узкий контекст. новостной фон тот же, текущие мемы, последние или известные песни и прочее
источник

ТИ

Танненберг Илья... in Natural Language Processing
Мне кажется, это не рациональное использование Labse. Он хорош, когда вы ищете парафразы. В оригинальной статье описывалось приближение эмбеддингов переводов для CLS токена друг к другу. Я для себя выработал такое мнемоническое правило (могу быть не прав) labse выдаст похожесть, если взять два предложения и перевести их на английский, и перевод будет очень близок(как по смыслу, так и по тексту).

А у вас в примере больше похоже на задачу NLI. Для нее свои модели, советую с этой статьи начать. https://habr-com.cdn.ampproject.org/v/s/habr.com/ru/amp/post/582620/?amp_js_v=a6&amp_gsa=1&usqp=mq331AQKKAFQArABIIACAw%3D%3D#aoh=16380069108605&referrer=https%3A%2F%2Fwww.google.com&amp_tf=С%20сайта%20%251%24s&ampshare=https%3A%2F%2Fhabr.com%2Fru%2Fpost%2F582620%2F
источник

d

dePuff in Natural Language Processing
Я, как раз и пытался продемонстрировать, что предложенный коллегами подход может не то, чтобы работать
источник

ТИ

Танненберг Илья... in Natural Language Processing
В статье кстати есть упоминание такого подхода с Labse, как zero-shot, отмечена низкая эффективность и предложены другие архитектуры
источник

d

dePuff in Natural Language Processing
Ну и в моих задачах похожесть предобученных кем-то векторов и моделек ни разу не соответствовала похожести нужной мне 😭
источник

d

dePuff in Natural Language Processing
На уровне "кошка лежит на матрасе" vs "компьютер жужжит видеокартой" они безусловно показывают наличие разницы )

PS: Но только мы ограничиваемся доменом о животных, как всё становится жутко похожим. Вообще всё.
источник

A

Andrey in Natural Language Processing
да я и не настаиваю на labse. взял первую попавшуюся для иллюстрации (так себе) идеи
источник

ТИ

Танненберг Илья... in Natural Language Processing
Ну вот это кстати NLI и есть
источник

ТИ

Танненберг Илья... in Natural Language Processing
Я вам очень советую цикл статей Давида Дале на хабре, там про все это есть
источник

YB

Yuri Baburov in Natural Language Processing
потому что хочется потоковой обработки. если пост-обработка норм, то можно и на них.
тебе нужна стандартная unsupervised anomaly detection на основе любых эмбедингов или кластеризации эмбедднигов.
или же любой другой метод anomaly detection, например, могут зайти рекуррентные вектора если нужно предсказывать аномалии типа сбоев.
хотя может unsupervised тебе не пойдёт, нужно будет supervised поверх unsupervised.
источник

A

Alexander in Natural Language Processing
Юрий, спасибо 😊
источник

VL

Viktor Lenshin in Natural Language Processing
источник

R

Ravil in Natural Language Processing
https://github.com/pullenti/pullenti-client
Добрый день. Подскажите,
pullenti-client поддерживает специфические анализаторы, например definition ?
источник
2021 November 28

МА

Максим Антонов... in Natural Language Processing
Привет.  Скажите, есть ли какие-то библиотеки, делающие морфемный разбор слов по правилам? Интересует выделение корня слова. Именно по правилам, не по словарю.
Пытаюсь поиграться с фильтром мата. Оказалось, что матерных слов можно напридумывать просто тонны, снабжая основную лемму приставками и суффиксами.

Или может кто-то решал уже подобные задачи?
источник

МА

Максим Антонов... in Natural Language Processing
Загуглить не удалось. выпадает толпа ссылок на тупой стемминг и до кучи pymorphy2. Ни то, ни другое не подходит.
источник

KA

Katya Artemova in Natural Language Processing
https://aclanthology.org/W17-1415.pdf я когда-то делала фильтр мата на суффкисных деревьях
источник

M

Mishanya in Natural Language Processing
в сколтехе есть хорошая коллекция уже с деривативами https://raw.githubusercontent.com/skoltech-nlp/rudetoxifier/main/data/train/MAT_FINAL_with_unigram_inflections.txt, а еще у них забавный бот @rudetoxifierbot
источник

МА

Максим Антонов... in Natural Language Processing
Охтыж почти 140 тыс слов. Но там куча не матных. Не перебрать в разумное время))
источник

Eg

Elena gisly in Natural Language Processing
видимо, проще нагенерить схожим способом от нужных корней, прибавляя приставки и суффиксы и склоняя при помощи pymorphy)
источник