Телеграмм чат группы natural_language

Всем привет!

Вам надоело ругаться в комментариях? Вам неприятно видеть мат в сообщениях? Иногда вы срываетесь в агрессии и потом жалете о сказаном?

Мы лаборатория SkoltechNLP и мы занимаемся проблемой борьбы с токсчиной речью. Мы пришли к задаче детоксификации — на входе есть токсичный текст, надо его перефразировать в нетоксиный. Например:
х*й знает кто кум, но девушка красивая👍 -> неизвестно кто кум, но девушка красивая
порядок бы бл*ть навёл ! -> Порядок бы навел

В рамках конференции Диалог-2022, мы объявляем соренвнование RUSSE 2022 Detoxification, посвященное решению этой проблемы. Это первое в мире соревнование по переносу стиля в текстах с параллельными данными. Вам необходимо будет разработать seq2seq систему, решающую задачу детоксификации на основе обучения на параллельном корпусе (а если хотите, то можете и без него). Ваша система будет оценена сначала автоматически, но потом мы проведем ручную оценку лучших систем участников и выбререм победителя с действительно лучшей системой!

Зачем участвовать?
* Попробовать свои силы в достаточно новой NLP теме переноса стиля в текстах;
* Более того, помочь решить важную социальную проблему;
* Поучаствовать в соревновании с уникальным setup-ом для этой задачи;
* А если вы как минимум преодолеваете бейзлан, то это дает вам возможность публикации на самой большой российской конференции по обработке текстов (что будет хорошим плюсиком в CV).

Это пост-затравка перед начало соревнования, которое открывается 15 декабря. Больше информации здесь:
https://russe.nlpub.org/2022/tox/
Телеграм-группа для дальнейших коммуникаций:
https://t.me/joinchat/Ckja7Vh00qPOU887pLonqQ

Увидимся через 2 дня.

Russian Semantic Evaluation

Russian Text Detoxification Based on Parallel Corpora

Shared task on Text detoxification based on parallel corpora for the Russian Language. Automatic detoxification of the Russian texts aims to combat offensive speech.

источник

18:11пожаловаться #11

Victor Maslov in Natural Language Processing

токсификацию сделайте

источник

18:13пожаловаться #12

Futorio Franklin in Natural Language Processing

По логике просто input на target поменять нужно

источник

18:13пожаловаться #13

Darina Dementyeva in Natural Language Processing

да, мы через два дня зарелизим параллельный датасет — его можно использовать для участия в соревновании с благой целью или немного похулиганить🤷‍♀️

источник

18:15пожаловаться #14

Nikolay Karelin in Natural Language Processing

Помниться, в далекие 90-е показывал мне однокурсник поделку под DOS - "Турбобл*дификатор текста" - без нейронок и всего остального, чисто на правилах выдавал матерный текст достойный лучших гопников. Увы, но исходники канули в Лету :(

источник

18:23пожаловаться #15

Victor Maslov in Natural Language Processing

вот убрать междометия легко простым регекспом, а найти удачное место для вставки сложнее

источник

18:37пожаловаться #16

Yuri Baburov in Natural Language Processing

вот бл*ть убрать бл*ть междометия бл*ть легко бл*ть простым бл*ть регекспом, бл*ть а бл*ть найти бл*ть... Ну вы поняли, да? :)

источник

20:20пожаловаться #17

Futorio Franklin in Natural Language Processing

Действительно, бл*ть

источник

20:20пожаловаться #18

Yuri Baburov in Natural Language Processing

Потому что сначала нужно делать spellchecking... ;) Хотя, сделать spellchecking с качеством выше 70% та ещё задачка, но и 50% исправлений значительно уменьшает число ошибок анализаторов морфологии и синтаксиса на разговорной речи. Возьмите скажем jamspell...

источник

20:22пожаловаться #19

Vitalya in Natural Language Processing

Всем привет!

Интересует следующая задача: нужно из слов на русских языков одной части речи, например, существительных, формировать родственные прилагательные.
Пример: курица -> куриный.

Есть ли какие-нибудь способы решения задачи?

На английском это хоть как-то работает через wordnet, но так себе конечно.

источник

20:28пожаловаться #20