Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 March 28

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Transpose более мощный, поэтому решили ставить один, возможно, два лучше. Ablation по этому поводу в статье нет.
помоему вообще-то Linear мощнее любой свертки, так как параметров больше. Свертка это же ограниченный linear.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
В трансформере линейный делается не для всех пикселей, а для каждого слова отдельно
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Поэтому свертка мощнее
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Поэтому параметров у свёртки больше, ибо ядро не 1 на 1.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
В трансформере линейный делается не для всех пикселей, а для каждого слова отдельно
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
единственная имплементация которую видел, тут Linear
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ну
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
сравнение слов и пикселей в контексте конвы и линеар и их "мощности" немного не корректны.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Почему, линеар равен свертки 1 на 1
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Почему, линеар равен свертки 1 на 1
в  трансформере свертка 1 на 1 ?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
в  трансформере свертка 1 на 1 ?
я уже писал, что там 4 на 4 свертка.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
В трансформере линейный слой, который тоже самое что свёртка 1 на 1
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
тогда суммируем, в модели САГАНа в имплементации нет линеарного слоя после внимания, а есть свертка 4 на 4.
В имеж трансформере есть линеарный слоя после аттешена (в самом атеншене), а в декодер лаере есть лаер аттеншнена и двойной слой линеар.
В обычном аттеншен лаере есть один линеар.
Вот я и начал с этого, вопрос на счет интуитивного понимания трех этих вариантов. "обычный трансформер" это не интуиция, единственное что говорится в статье об этом, в картинке приложенной, но из этого интуитивно мне не очень понятно.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
тогда суммируем, в модели САГАНа в имплементации нет линеарного слоя после внимания, а есть свертка 4 на 4.
В имеж трансформере есть линеарный слоя после аттешена (в самом атеншене), а в декодер лаере есть лаер аттеншнена и двойной слой линеар.
В обычном аттеншен лаере есть один линеар.
Вот я и начал с этого, вопрос на счет интуитивного понимания трех этих вариантов. "обычный трансформер" это не интуиция, единственное что говорится в статье об этом, в картинке приложенной, но из этого интуитивно мне не очень понятно.
причем в САГАНЕ как я писал, эта свертка не связана с аттеншеном, она и не в его классе, в отличие от других статей, где dense, linear и тд инитиализированны в самом аттеншене.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
нет в этой имплементации линеар
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
тогда суммируем, в модели САГАНа в имплементации нет линеарного слоя после внимания, а есть свертка 4 на 4.
В имеж трансформере есть линеарный слоя после аттешена (в самом атеншене), а в декодер лаере есть лаер аттеншнена и двойной слой линеар.
В обычном аттеншен лаере есть один линеар.
Вот я и начал с этого, вопрос на счет интуитивного понимания трех этих вариантов. "обычный трансформер" это не интуиция, единственное что говорится в статье об этом, в картинке приложенной, но из этого интуитивно мне не очень понятно.
Фотка из Сагана как бы. Там должна быть свёртка в self-attention, если не положили в, значит положили после, если не положили после, значит неправильно имплементировали.

В ванильном трансформере, коим саган не является, блок состоит из self-attention + 2 линейных слоя. https://habr.com/ru/post/486358/, приятная понятная статья.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Фотка из Сагана как бы. Там должна быть свёртка в self-attention, если не положили в, значит положили после, если не положили после, значит неправильно имплементировали.

В ванильном трансформере, коим саган не является, блок состоит из self-attention + 2 линейных слоя. https://habr.com/ru/post/486358/, приятная понятная статья.
ну вот, я с этого и начал, что похоже что двойной ФФ в трансформерах работающих традиционно с словами, а значит с их эмбедингами, вот для работы с эмбедингом мне понтно почему двойной слой ФФ, потому что это репрезентация слова в latent space.
А дальше думать надо нахрена оно в трансформерах для картинок.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Слово == пиксель
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Тоже должно передавать смысловую информацию и иметь особенности.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Слово == пиксель
слово = цифра и ее эмбединг.  Аттеншен в любом случае работает обычно на фичермапе, тут уже не пиксель, а условно говоря его эмбединг. Может быть и есть аналогия, надо подумать. Ну то есть чисто грубо говоря похоже.
источник