Size: a a a

Natural Language Processing

2021 December 19

A

Andrey in Natural Language Processing
готовый вряд ли есть открытый. хотя это неточно. но вообще, где-то на хабре вроде было про такое
https://paperswithcode.com/dataset/russian-event2mind
источник

D

Dmitry in Natural Language Processing
Всем привет.  Есть задача multilabel классификации текстов разной, но большой длины (длина >> 512 токенов). Интересуют методы решения данной задачи с помощью трансформеров. Если использовать скользящее окно, как лучше агрегировать эмбеддинги? Рекуррентку по кускам тоже пробовал. Задача кажется достаточно  распространенной, наверняка,  есть опробированные решения, не хочется изобретать велосипед.
источник

КЗ

Катя Забабурина... in Natural Language Processing
Спасибо, поизучаю
источник

A

Andrey in Natural Language Processing
точно?))
источник

КЗ

Катя Забабурина... in Natural Language Processing
Выглядит совсем не так, как я себе представляла, но вдруг можно за что-то зацепиться с:
источник

AW

Alex Wortega in Natural Language Processing
Насколько мне известно там решается ner + classification
источник

A

Andrey in Natural Language Processing
я уж надеялся напроситься узнать, зашло или нет)
источник

A

Andrey in Natural Language Processing
так classification и есть распознавание интентов. а если ner добавить - то вообще ванильный чатбот считай)
источник

AW

Alex Wortega in Natural Language Processing
Так и есть)
источник

КЗ

Катя Забабурина... in Natural Language Processing
Там вроде как датасет больше из эмоций состоит. Ищу как раз интенты-команды, сейчас задачки с умными домами популярные, так что надежда не угасает, что есть что-то похожее открытое
источник

d

dePuff in Natural Language Processing
Присоединяюсь к интересно выслушать идеи

А то мне не нравится всё опробованное, хоть оно и работает 😅
источник

IG

Ilya Gusev in Natural Language Processing
1) "Длинные" трансформеры
2) Трансформер (либо просто однослойный self-attention) над [CLS] выходами маленьких трансформеров
источник

IG

Ilya Gusev in Natural Language Processing
во втором случае разные варианты заморозки ещё можно попробовать
источник

D

Dmitry in Natural Language Processing
Спасибо, да над п.2 тоже думал. А длинные это например какие?
источник

IG

Ilya Gusev in Natural Language Processing
Longformer, Reformer, BigBird, Performer
источник

D

Dmitry in Natural Language Processing
Спасибо!
источник

AT

Alexander Terentyev in Natural Language Processing
Коллеги, всем привет

Кто может помочь реализовать модель, которая будет раскладывать строки на атрибуты (с подкреплением)?
источник
2021 December 20

B

Banof in Natural Language Processing
🔫 Loretta Nash кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@Spiralhead, @ivvital, @kira_opya_zagrustila, @kitaiskypanda, @conwerner
При поддержке Золота Бородача
источник

VG

Vadim Gudkov in Natural Language Processing
А есть какой-то туториал как подменять токенайзер, чтобы сделать трансфер модели  из HuggingFace на другой язык? (хочу попробовать трансфер с русского на старорусский)
источник

d

dePuff in Natural Language Processing
Вытащить из токенайзера id -> token в словарик, переписать 30к+ токенов на свои, написать пять строчек своего разтокенайзера по этому словарику :)

Причём часть с "разтокенайзером" меня смущает в этом процессе меньше всего
источник