Size: a a a

Natural Language Processing

2021 November 22

DD

David Dale in Natural Language Processing
Трансформеры супер быстро учатся копировать собственные инпуты.
Вы точно хотите учить модель именно этому?
источник

Д

Данил in Natural Language Processing
вообще я хочу получить хорошое скрытое состояние после энкодера, чтобы потом его подавать как фичи в модели второго уровня и тд, думал если трансформер хорошо научится восстанавливать input, значит у него состояние после энкодера будет хорошим, это не так?
источник

IG

Ilya Gusev in Natural Language Processing
Про переведённый sts-b не знал, спасибо. А вот про остальное - на самом деле не хватает датасета для подбора порогов для всех этих энкодеров. Непонятно, где отрезать пары так, чтобы остались условно только 4 и 5 категория по STS, разве что на глаз.
источник

DD

David Dale in Natural Language Processing
За счёт того, что трансформер обложен атеншном со всех сторон, ему очень просто научиться копипастить, ничего толком не выучив.
Поэтому при обучении всех известных автоэнкодеров типа BERT или T5 входной текст специально портят, например, заменяя слова на маски, или вообще удаляя, а трансформер учится по такому испорченному тексту предсказывать его изначальную версию.
источник

DD

David Dale in Natural Language Processing
Это один путь, как можно создать хорошее представление. В общем виде называется denoising autoencoder.
Второй путь - создать искусственный bottleneck, убрав атеншн между энкодером и декодером. Тогда в одном векторе (а не в последовательности векторов по одному на каждый токен) придётся хранить информацию обо всём инпуте целиком. Так, например, обучалась модель LASER, и выучила очень хорошие эмбеддинги предложений.
источник

IG

Ilya Gusev in Natural Language Processing
В случае трансформеров атеншн полностью не уберёшь, надо маскировать все выходы энкодера, кроме одного.
И это кстати работает довольно неплохо
источник

DD

David Dale in Natural Language Processing
Я это и имел в виду)
источник

Д

Данил in Natural Language Processing
А вот допустим у меня не просто предложения, а какие-то последовательные действия - [x, y, z, q, ....] Целесообразно ли здесь что-то прятать на входе?
источник

DD

David Dale in Natural Language Processing
Ну пороги в любом случае нужно подбирать под собственную задачу.
источник

Д

Данил in Natural Language Processing
то есть если в текстах по контексту что-то можно вытянуть, а тут не уверен
источник

SP

Sebastian Pereira in Natural Language Processing
Купить PRO улучшенную версию
источник

Д

Данил in Natural Language Processing
кроме одного, это какого?
источник

IG

Ilya Gusev in Natural Language Processing
А зачем тогда вообще использовать трансформер, если контекст бесполезен? Должны же быть хоть какие-то взаимосвязи между событиями. Можно же не только прятать токены, можно переставлять события местами, сдвигать влево-вправо, и так далее
источник

IG

Ilya Gusev in Natural Language Processing
да какого угодно, в общем-то
источник

Д

Данил in Natural Language Processing
нет, он полезен, так как они все последовательно идут и она важна
источник

Д

Данил in Natural Language Processing
в общем порядок важен
источник

IG

Ilya Gusev in Natural Language Processing
это противоречит "нельзя вытянуть по контексту"
источник

Д

Данил in Natural Language Processing
хорошо, тогда спасибо за информацию! почитаю в эту сторону
источник

S

Sergey in Natural Language Processing
Илья, Давид спасибо за информацию.
источник

A

Anton in Natural Language Processing
Вопрос в тему.
А что лучше - портить текст ближе к будущему входу? Или просто убирать "частотные ошибки"?
Вопрос про восстановление текста после ASR
источник