Телеграмм чат группы natural_language_processing страница 1537

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 November 27

A

Andrey in Natural Language Processing

good luck... сарказм не всегда когда по смыслу предложения противоречат. в части случаев-то да. но даже какой один (не тот) смайл может перевернуть всю картину

источник

11:23пожаловаться #1

A

Andrey in Natural Language Processing

болен того, два человека могут воспринимать по-разному. для одного сарказм, для другого факт. нужен обширный или наоборот узкий контекст. новостной фон тот же, текущие мемы, последние или известные песни и прочее

источник

11:26пожаловаться #2

ТИ

Танненберг Илья... in Natural Language Processing

Мне кажется, это не рациональное использование Labse. Он хорош, когда вы ищете парафразы. В оригинальной статье описывалось приближение эмбеддингов переводов для CLS токена друг к другу. Я для себя выработал такое мнемоническое правило (могу быть не прав) labse выдаст похожесть, если взять два предложения и перевести их на английский, и перевод будет очень близок(как по смыслу, так и по тексту).

А у вас в примере больше похоже на задачу NLI. Для нее свои модели, советую с этой статьи начать. https://habr-com.cdn.ampproject.org/v/s/habr.com/ru/amp/post/582620/?amp_js_v=a6&amp_gsa=1&usqp=mq331AQKKAFQArABIIACAw%3D%3D#aoh=16380069108605&referrer=https%3A%2F%2Fwww.google.com&amp_tf=С%20сайта%20%251%24s&ampshare=https%3A%2F%2Fhabr.com%2Fru%2Fpost%2F582620%2F

источник

12:56пожаловаться #3

d

dePuff in Natural Language Processing

Я, как раз и пытался продемонстрировать, что предложенный коллегами подход может не то, чтобы работать

источник

12:57пожаловаться #4

ТИ

Танненберг Илья... in Natural Language Processing

В статье кстати есть упоминание такого подхода с Labse, как zero-shot, отмечена низкая эффективность и предложены другие архитектуры

источник

13:00пожаловаться #5

d

dePuff in Natural Language Processing

Ну и в моих задачах похожесть предобученных кем-то векторов и моделек ни разу не соответствовала похожести нужной мне 😭

источник

13:00пожаловаться #6

d

dePuff in Natural Language Processing

На уровне "кошка лежит на матрасе" vs "компьютер жужжит видеокартой" они безусловно показывают наличие разницы )

PS: Но только мы ограничиваемся доменом о животных, как всё становится жутко похожим. Вообще всё.

источник

13:02пожаловаться #7

A

Andrey in Natural Language Processing

да я и не настаиваю на labse. взял первую попавшуюся для иллюстрации (так себе) идеи

источник

13:02пожаловаться #8

ТИ

Танненберг Илья... in Natural Language Processing

Ну вот это кстати NLI и есть

источник

13:03пожаловаться #9

ТИ

Танненберг Илья... in Natural Language Processing

Я вам очень советую цикл статей Давида Дале на хабре, там про все это есть

источник

13:04пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

потому что хочется потоковой обработки. если пост-обработка норм, то можно и на них.
тебе нужна стандартная unsupervised anomaly detection на основе любых эмбедингов или кластеризации эмбедднигов.
или же любой другой метод anomaly detection, например, могут зайти рекуррентные вектора если нужно предсказывать аномалии типа сбоев.
хотя может unsupervised тебе не пойдёт, нужно будет supervised поверх unsupervised.

источник

13:28пожаловаться #11

A

Alexander in Natural Language Processing

Юрий, спасибо 😊

источник

13:30пожаловаться #12

VL

Viktor Lenshin in Natural Language Processing

https://github.com/lenshin/address

GitHub - lenshin/address: Russian postal address parser

Russian postal address parser. Contribute to lenshin/address development by creating an account on GitHub.

источник

15:37пожаловаться #13

R

Ravil in Natural Language Processing

https://github.com/pullenti/pullenti-client
Добрый день. Подскажите,
pullenti-client поддерживает специфические анализаторы, например definition ?

GitHub - pullenti/pullenti-client: Client for PullentiServer

Client for PullentiServer. Contribute to pullenti/pullenti-client development by creating an account on GitHub.

источник

16:24пожаловаться #14

2021 November 28

МА

Максим Антонов... in Natural Language Processing

Привет. Скажите, есть ли какие-то библиотеки, делающие морфемный разбор слов по правилам? Интересует выделение корня слова. Именно по правилам, не по словарю.
Пытаюсь поиграться с фильтром мата. Оказалось, что матерных слов можно напридумывать просто тонны, снабжая основную лемму приставками и суффиксами.

Или может кто-то решал уже подобные задачи?

источник

12:18пожаловаться #15

МА

Максим Антонов... in Natural Language Processing

Загуглить не удалось. выпадает толпа ссылок на тупой стемминг и до кучи pymorphy2. Ни то, ни другое не подходит.

источник

12:20пожаловаться #16

KA

Katya Artemova in Natural Language Processing

https://aclanthology.org/W17-1415.pdf я когда-то делала фильтр мата на суффкисных деревьях

источник

12:29пожаловаться #17

M

Mishanya in Natural Language Processing

в сколтехе есть хорошая коллекция уже с деривативами https://raw.githubusercontent.com/skoltech-nlp/rudetoxifier/main/data/train/MAT_FINAL_with_unigram_inflections.txt, а еще у них забавный бот @rudetoxifierbot

источник

12:37пожаловаться #18

МА

Максим Антонов... in Natural Language Processing

Охтыж почти 140 тыс слов. Но там куча не матных. Не перебрать в разумное время))

источник

13:58пожаловаться #19

Eg

Elena gisly in Natural Language Processing

видимо, проще нагенерить схожим способом от нужных корней, прибавляя приставки и суффиксы и склоняя при помощи pymorphy)

источник

14:09пожаловаться #20