Size: a a a

Natural Language Processing

2021 December 13

N

Nikolay in Natural Language Processing
Посмотри репу fairseq, у них там очень большая папка с примерами, что-то найдётся обязательно
источник

MB

Mark Baushenko in Natural Language Processing
спасибо, гляну
источник

IG

Ilya Gusev in Natural Language Processing
Я недавно такую обучал, вот конфиг https://github.com/IlyaGusev/summarus/blob/master/external/hf_scripts/configs/t5_training_config.json. Там же рядышком скрипт обучения
источник

MB

Mark Baushenko in Natural Language Processing
спасибо
источник

MB

Mark Baushenko in Natural Language Processing
как понять, сколько нужно данных?
источник

IG

Ilya Gusev in Natural Language Processing
ну смотря для каких целей, порядка нескольких тысяч пар минимум скорее всего нужно
источник

PG

Pavel Gulyaev in Natural Language Processing
Если будут ещё вопросы, то разработчики достаточно быстро отвечают на них форуме https://forum.deeppavlov.ai/
источник

ИМ

Иван Михеев... in Natural Language Processing
О, спасибо
источник

PG

Prohor Gladkikh in Natural Language Processing
источник

d

dePuff in Natural Language Processing
https://huggingface.co/docs/transformers/main_classes/optimizer_schedules#transformers.Adafactor

Это, собственно, самое полезное, что есть по файнтюнингу t5 в интернетах
источник

DD

Darina Dementyeva in Natural Language Processing
Всем привет!

Вам надоело ругаться в комментариях? Вам неприятно видеть мат в сообщениях? Иногда вы срываетесь в агрессии и потом жалете о сказаном?

Мы лаборатория SkoltechNLP и мы занимаемся проблемой борьбы с токсчиной речью. Мы пришли к задаче детоксификации — на входе есть токсичный текст, надо его перефразировать в нетоксиный. Например:
х*й знает кто кум, но девушка красивая👍 -> неизвестно кто кум, но девушка красивая
порядок бы бл*ть навёл ! -> Порядок бы навел

В рамках конференции Диалог-2022, мы объявляем соренвнование RUSSE 2022 Detoxification, посвященное решению этой проблемы. Это первое в мире соревнование по переносу стиля в текстах с параллельными данными. Вам необходимо будет разработать seq2seq систему, решающую задачу детоксификации на основе обучения на параллельном корпусе (а если хотите, то можете и без него). Ваша система будет оценена сначала автоматически, но потом мы проведем ручную оценку лучших систем участников и выбререм победителя с действительно лучшей системой!

Зачем участвовать?
* Попробовать свои силы в достаточно новой NLP теме переноса стиля в текстах;
* Более того, помочь решить важную социальную проблему;
* Поучаствовать в соревновании с уникальным setup-ом для этой задачи;
* А если вы как минимум преодолеваете бейзлан, то это дает вам возможность публикации на самой большой российской конференции по обработке текстов (что будет хорошим плюсиком в CV).

Это пост-затравка перед начало соревнования, которое открывается 15 декабря. Больше информации здесь:
https://russe.nlpub.org/2022/tox/
Телеграм-группа для дальнейших коммуникаций:
https://t.me/joinchat/Ckja7Vh00qPOU887pLonqQ

Увидимся через 2 дня.
источник

VM

Victor Maslov in Natural Language Processing
токсификацию сделайте
источник

FF

Futorio Franklin in Natural Language Processing
По логике просто input на target поменять нужно
источник

DD

Darina Dementyeva in Natural Language Processing
да, мы через два дня зарелизим параллельный датасет — его можно использовать для участия в соревновании с благой целью или немного похулиганить🤷‍♀️
источник

NK

Nikolay Karelin in Natural Language Processing
Помниться, в далекие 90-е показывал мне однокурсник поделку под DOS - "Турбобл*дификатор текста" - без нейронок и всего остального, чисто на правилах выдавал матерный текст достойный лучших гопников. Увы, но исходники канули в Лету :(
источник

VM

Victor Maslov in Natural Language Processing
вот убрать междометия легко простым регекспом, а найти удачное место для вставки сложнее
источник

YB

Yuri Baburov in Natural Language Processing
вот бл*ть убрать бл*ть  междометия бл*ть легко  бл*ть простым бл*ть регекспом, бл*ть а  бл*ть найти бл*ть... Ну вы поняли, да? :)
источник

FF

Futorio Franklin in Natural Language Processing
Действительно, бл*ть
источник

YB

Yuri Baburov in Natural Language Processing
Потому что сначала нужно делать spellchecking... ;) Хотя, сделать spellchecking с качеством выше 70% та ещё задачка, но и 50% исправлений значительно уменьшает число ошибок анализаторов морфологии и синтаксиса на разговорной речи. Возьмите скажем jamspell...
источник

V

Vitalya in Natural Language Processing
Всем привет!

Интересует следующая задача: нужно из слов на русских языков одной части речи, например, существительных, формировать родственные прилагательные.
Пример: курица -> куриный.

Есть ли какие-нибудь способы решения задачи?

На английском это хоть как-то работает через wordnet, но так себе конечно.
источник