Телеграмм чат группы natural_language

Трансформеры супер быстро учатся копировать собственные инпуты.
Вы точно хотите учить модель именно этому?

16:57пожаловаться #1

вообще я хочу получить хорошое скрытое состояние после энкодера, чтобы потом его подавать как фичи в модели второго уровня и тд, думал если трансформер хорошо научится восстанавливать input, значит у него состояние после энкодера будет хорошим, это не так?

16:59пожаловаться #2

Про переведённый sts-b не знал, спасибо. А вот про остальное - на самом деле не хватает датасета для подбора порогов для всех этих энкодеров. Непонятно, где отрезать пары так, чтобы остались условно только 4 и 5 категория по STS, разве что на глаз.

17:00пожаловаться #3

За счёт того, что трансформер обложен атеншном со всех сторон, ему очень просто научиться копипастить, ничего толком не выучив.
Поэтому при обучении всех известных автоэнкодеров типа BERT или T5 входной текст специально портят, например, заменяя слова на маски, или вообще удаляя, а трансформер учится по такому испорченному тексту предсказывать его изначальную версию.

17:01пожаловаться #4

Это один путь, как можно создать хорошее представление. В общем виде называется denoising autoencoder.
Второй путь - создать искусственный bottleneck, убрав атеншн между энкодером и декодером. Тогда в одном векторе (а не в последовательности векторов по одному на каждый токен) придётся хранить информацию обо всём инпуте целиком. Так, например, обучалась модель LASER, и выучила очень хорошие эмбеддинги предложений.

17:03пожаловаться #5

В случае трансформеров атеншн полностью не уберёшь, надо маскировать все выходы энкодера, кроме одного.
И это кстати работает довольно неплохо

17:04пожаловаться #6

Я это и имел в виду)

17:04пожаловаться #7

А вот допустим у меня не просто предложения, а какие-то последовательные действия - [x, y, z, q, ....] Целесообразно ли здесь что-то прятать на входе?

17:04пожаловаться #8

Ну пороги в любом случае нужно подбирать под собственную задачу.

17:05пожаловаться #9

то есть если в текстах по контексту что-то можно вытянуть, а тут не уверен

Sebastian Pereira in Natural Language Processing

17:06пожаловаться #10

Купить PRO улучшенную версию

17:09пожаловаться #11

кроме одного, это какого?

17:11пожаловаться #12

А зачем тогда вообще использовать трансформер, если контекст бесполезен? Должны же быть хоть какие-то взаимосвязи между событиями. Можно же не только прятать токены, можно переставлять события местами, сдвигать влево-вправо, и так далее

17:11пожаловаться #13

да какого угодно, в общем-то

17:12пожаловаться #14

нет, он полезен, так как они все последовательно идут и она важна

17:12пожаловаться #15