Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 March 27

c

care1e55 in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Значит что ты не правильно понимаешь смысл значения loss
источник

c

care1e55 in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
loss - значение функции потерь. Оно не измеряется в процентах и отражет количественно значение оптимизируемой функции, которую например минимизируем. MSE для регрессии или кроссэнтропия для классификации.
источник
2021 March 28

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
смотрю в статье attention is all you need, и сравниваю подход инкодера-декодера в трансформере и механизма внимания без него.

применение обычного атеншена насколько я видел в имплементациях обычных выглядит как input+gamma*attn(input), где гамма тоже обучаемый параметр.

Эксперементировал в аттеншеном для картинок, и увидел следующий эффект применяя слой целого декодера, а не просто самого аттеншена, в отличие от аттеншена, аупут декодера связал намного больше фичеров в картинке.

Насколько я понимаю, это именно результат FF, который состоит из Fully-Connected, верно ? то есть к вниманию по сути не имеет сильного отношения ?
Ну или се такие имеет, и можно сказать что FF как бы связывает весь аупут аттеншена воедино, что выразилось и  в моем случае.

Почему я использовал только структуру Декодера, хотя трансформер состоит из инкодера-декодера и они предназначены для совместной, а не раздельной работе ?

Потому что я экспереметирую с ГАНом, ну и процесс генерации чем-то схож по сути на декодер.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
смотрю в статье attention is all you need, и сравниваю подход инкодера-декодера в трансформере и механизма внимания без него.

применение обычного атеншена насколько я видел в имплементациях обычных выглядит как input+gamma*attn(input), где гамма тоже обучаемый параметр.

Эксперементировал в аттеншеном для картинок, и увидел следующий эффект применяя слой целого декодера, а не просто самого аттеншена, в отличие от аттеншена, аупут декодера связал намного больше фичеров в картинке.

Насколько я понимаю, это именно результат FF, который состоит из Fully-Connected, верно ? то есть к вниманию по сути не имеет сильного отношения ?
Ну или се такие имеет, и можно сказать что FF как бы связывает весь аупут аттеншена воедино, что выразилось и  в моем случае.

Почему я использовал только структуру Декодера, хотя трансформер состоит из инкодера-декодера и они предназначены для совместной, а не раздельной работе ?

Потому что я экспереметирую с ГАНом, ну и процесс генерации чем-то схож по сути на декодер.
Из нойза конволюциями делается картинка (типо декодинга).
Вообще в САГАНе так как я описал с аттеншеном, гамма и плюс к инпуту, но там еще после лаер нормализации, что понятно, и почему то лаер Релю активизации, что менее понятно, так как в статьях про аттеншен об это не говорится, зачем мне активизация после нормализации после x+gamma*attn(x) ?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
смотрю в статье attention is all you need, и сравниваю подход инкодера-декодера в трансформере и механизма внимания без него.

применение обычного атеншена насколько я видел в имплементациях обычных выглядит как input+gamma*attn(input), где гамма тоже обучаемый параметр.

Эксперементировал в аттеншеном для картинок, и увидел следующий эффект применяя слой целого декодера, а не просто самого аттеншена, в отличие от аттеншена, аупут декодера связал намного больше фичеров в картинке.

Насколько я понимаю, это именно результат FF, который состоит из Fully-Connected, верно ? то есть к вниманию по сути не имеет сильного отношения ?
Ну или се такие имеет, и можно сказать что FF как бы связывает весь аупут аттеншена воедино, что выразилось и  в моем случае.

Почему я использовал только структуру Декодера, хотя трансформер состоит из инкодера-декодера и они предназначены для совместной, а не раздельной работе ?

Потому что я экспереметирую с ГАНом, ну и процесс генерации чем-то схож по сути на декодер.
тут вопрос на счет Feed-Forwarda, играет ли он ту роль которую написал и какую ли вообще ?
Подумал еще, в контексте nlp, там то нужен ембеддинг (допустим с картинками его роль играют предшествующие конволюции), то FF еще нужен чтобы ну как бы из embedded input в его embedded space сделать что-то толковое для декодера, для этого FF.
ну вот с картинками думаю также, не также ?
Просто эффект большего "связывания" есть, меньше варианса в генерации получилось. А с Аттеншеном без ФФ даже похоже больше, чем без, ну либо столько же, ожидаемый результат ?

P.S - естественно в контесте картинок и ГАНов речь идет об этих компонентах без Linear-SoftMax.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Просто в модели ImageTransformer, которая тоже использует инкодер-дикодер структуру естественно подход как в Траснформере, более того, там не x+attn(x)*gamma, а аутпут только аттеншена выглядит так linear(attn(x)), а поверх него norm(ffn(norm(linear(attn(x)), где ffn это двойной linear с активизацией relu между, вот получается как бы несколько вариаций для применения attention, и хотелось бы понять интуицию применения с одним слоем linear на выходе, без, и с двумя (или всеми тремя, один на выходе + нормализованные два в ffn).
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Сам эттеншэн плохо обрабатывает данные, поэтому нужны fc слои
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Сам эттеншэн плохо обрабатывает данные, поэтому нужны fc слои
не ну в САГАНе только с аттеншеном без особых фф, и офигенные результаты относительно обычного ГАНа.
А это как бы главенствующая статья презентующая его.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
по крайней мере несколько таких имплементаций видел в коде arxiv-a
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Что это если не FC?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Что это если не FC?
1x1 conv это практически одно и тоже что FC
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ну так)
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
1x1 conv это практически одно и тоже что FC
Не практически, а точно одно и тоже для каждого слова.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
И я не вижу, где они от других от ещё одного отказались...
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Что это если не FC?
это из ImageTransformer-a вроде картинка, не ?
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
это из ImageTransformer-a вроде картинка, не ?
https://arxiv.org/pdf/1805.08318.pdf - Self-Attention Generative Adversarial Networks
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Насколько я понимаю, sagan это эта статья или у них как с CenterNet две статьи с одинаковым названием сети?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
https://arxiv.org/pdf/1805.08318.pdf - Self-Attention Generative Adversarial Networks
точно, вру на счет вообще без Linear, спасибо, поправил. В архитектуре (в коде) не заметил. Надо внимание тренировать ))

хотя нет, в коде действительно нет, но пофиг, главное, что в статье в картинке есть.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
У них, как я понял, идея в том, что запрос идёт от большего разрешения к value прошлого разрешения... Интересно, советую посмотреть ещё TransGAN, они делают upsampling с помощью depth to space и используют трансформеры.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Насколько я понимаю, sagan это эта статья или у них как с CenterNet две статьи с одинаковым названием сети?
ну я эту по крайней мере смотрел.
источник