Телеграмм чат группы bigdata_ru страница 2631

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4833 membersпожаловаться на группу

2021 March 27

c

care1e55 in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Значит что ты не правильно понимаешь смысл значения loss

источник

23:12пожаловаться #1

c

care1e55 in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

loss - значение функции потерь. Оно не измеряется в процентах и отражет количественно значение оптимизируемой функции, которую например минимизируем. MSE для регрессии или кроссэнтропия для классификации.

источник

23:15пожаловаться #2

2021 March 28

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

смотрю в статье attention is all you need, и сравниваю подход инкодера-декодера в трансформере и механизма внимания без него.

применение обычного атеншена насколько я видел в имплементациях обычных выглядит как input+gamma*attn(input), где гамма тоже обучаемый параметр.

Эксперементировал в аттеншеном для картинок, и увидел следующий эффект применяя слой целого декодера, а не просто самого аттеншена, в отличие от аттеншена, аупут декодера связал намного больше фичеров в картинке.

Насколько я понимаю, это именно результат FF, который состоит из Fully-Connected, верно ? то есть к вниманию по сути не имеет сильного отношения ?
Ну или се такие имеет, и можно сказать что FF как бы связывает весь аупут аттеншена воедино, что выразилось и в моем случае.

Почему я использовал только структуру Декодера, хотя трансформер состоит из инкодера-декодера и они предназначены для совместной, а не раздельной работе ?

Потому что я экспереметирую с ГАНом, ну и процесс генерации чем-то схож по сути на декодер.

источник

01:37пожаловаться #3

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

смотрю в статье attention is all you need, и сравниваю подход инкодера-декодера в трансформере и механизма внимания без него.

применение обычного атеншена насколько я видел в имплементациях обычных выглядит как input+gamma*attn(input), где гамма тоже обучаемый параметр.

Эксперементировал в аттеншеном для картинок, и увидел следующий эффект применяя слой целого декодера, а не просто самого аттеншена, в отличие от аттеншена, аупут декодера связал намного больше фичеров в картинке.

Насколько я понимаю, это именно результат FF, который состоит из Fully-Connected, верно ? то есть к вниманию по сути не имеет сильного отношения ?
Ну или се такие имеет, и можно сказать что FF как бы связывает весь аупут аттеншена воедино, что выразилось и в моем случае.

Почему я использовал только структуру Декодера, хотя трансформер состоит из инкодера-декодера и они предназначены для совместной, а не раздельной работе ?

Потому что я экспереметирую с ГАНом, ну и процесс генерации чем-то схож по сути на декодер.

Из нойза конволюциями делается картинка (типо декодинга).
Вообще в САГАНе так как я описал с аттеншеном, гамма и плюс к инпуту, но там еще после лаер нормализации, что понятно, и почему то лаер Релю активизации, что менее понятно, так как в статьях про аттеншен об это не говорится, зачем мне активизация после нормализации после x+gamma*attn(x) ?

источник

01:38пожаловаться #4

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

смотрю в статье attention is all you need, и сравниваю подход инкодера-декодера в трансформере и механизма внимания без него.

применение обычного атеншена насколько я видел в имплементациях обычных выглядит как input+gamma*attn(input), где гамма тоже обучаемый параметр.

Эксперементировал в аттеншеном для картинок, и увидел следующий эффект применяя слой целого декодера, а не просто самого аттеншена, в отличие от аттеншена, аупут декодера связал намного больше фичеров в картинке.

Насколько я понимаю, это именно результат FF, который состоит из Fully-Connected, верно ? то есть к вниманию по сути не имеет сильного отношения ?
Ну или се такие имеет, и можно сказать что FF как бы связывает весь аупут аттеншена воедино, что выразилось и в моем случае.

Почему я использовал только структуру Декодера, хотя трансформер состоит из инкодера-декодера и они предназначены для совместной, а не раздельной работе ?

Потому что я экспереметирую с ГАНом, ну и процесс генерации чем-то схож по сути на декодер.

тут вопрос на счет Feed-Forwarda, играет ли он ту роль которую написал и какую ли вообще ?
Подумал еще, в контексте nlp, там то нужен ембеддинг (допустим с картинками его роль играют предшествующие конволюции), то FF еще нужен чтобы ну как бы из embedded input в его embedded space сделать что-то толковое для декодера, для этого FF.
ну вот с картинками думаю также, не также ?
Просто эффект большего "связывания" есть, меньше варианса в генерации получилось. А с Аттеншеном без ФФ даже похоже больше, чем без, ну либо столько же, ожидаемый результат ?

P.S - естественно в контесте картинок и ГАНов речь идет об этих компонентах без Linear-SoftMax.

источник

01:46пожаловаться #5

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Просто в модели ImageTransformer, которая тоже использует инкодер-дикодер структуру естественно подход как в Траснформере, более того, там не x+attn(x)*gamma, а аутпут только аттеншена выглядит так linear(attn(x)), а поверх него norm(ffn(norm(linear(attn(x)), где ffn это двойной linear с активизацией relu между, вот получается как бы несколько вариаций для применения attention, и хотелось бы понять интуицию применения с одним слоем linear на выходе, без, и с двумя (или всеми тремя, один на выходе + нормализованные два в ffn).

источник

02:39пожаловаться #6

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Сам эттеншэн плохо обрабатывает данные, поэтому нужны fc слои

источник

02:42пожаловаться #7

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Сам эттеншэн плохо обрабатывает данные, поэтому нужны fc слои

не ну в САГАНе только с аттеншеном без особых фф, и офигенные результаты относительно обычного ГАНа.
А это как бы главенствующая статья презентующая его.

источник

02:43пожаловаться #8

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

по крайней мере несколько таких имплементаций видел в коде arxiv-a

источник

02:44пожаловаться #9

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Что это если не FC?

источник

02:45пожаловаться #10

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Что это если не FC?

1x1 conv это практически одно и тоже что FC

источник

02:46пожаловаться #11

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ну так)

источник

02:46пожаловаться #12

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

1x1 conv это практически одно и тоже что FC

Не практически, а точно одно и тоже для каждого слова.

источник

02:47пожаловаться #13

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

И я не вижу, где они от других от ещё одного отказались...

источник

02:48пожаловаться #14

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Что это если не FC?

это из ImageTransformer-a вроде картинка, не ?

источник

02:48пожаловаться #15

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

это из ImageTransformer-a вроде картинка, не ?

https://arxiv.org/pdf/1805.08318.pdf - Self-Attention Generative Adversarial Networks

источник

02:48пожаловаться #16

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Насколько я понимаю, sagan это эта статья или у них как с CenterNet две статьи с одинаковым названием сети?

источник

02:49пожаловаться #17

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

https://arxiv.org/pdf/1805.08318.pdf - Self-Attention Generative Adversarial Networks

точно, вру на счет вообще без Linear, спасибо, поправил. В архитектуре (в коде) не заметил. Надо внимание тренировать ))

хотя нет, в коде действительно нет, но пофиг, главное, что в статье в картинке есть.

источник

02:50пожаловаться #18

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

У них, как я понял, идея в том, что запрос идёт от большего разрешения к value прошлого разрешения... Интересно, советую посмотреть ещё TransGAN, они делают upsampling с помощью depth to space и используют трансформеры.

источник

02:52пожаловаться #19

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Насколько я понимаю, sagan это эта статья или у них как с CenterNet две статьи с одинаковым названием сети?

ну я эту по крайней мере смотрел.

источник

02:53пожаловаться #20