Телеграмм чат группы bigdata_ru страница 2634

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4833 membersпожаловаться на группу

2021 March 28

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Transpose более мощный, поэтому решили ставить один, возможно, два лучше. Ablation по этому поводу в статье нет.

помоему вообще-то Linear мощнее любой свертки, так как параметров больше. Свертка это же ограниченный linear.

источник

03:24пожаловаться #1

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

В трансформере линейный делается не для всех пикселей, а для каждого слова отдельно

источник

03:27пожаловаться #2

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Поэтому свертка мощнее

источник

03:28пожаловаться #3

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Поэтому параметров у свёртки больше, ибо ядро не 1 на 1.

источник

03:30пожаловаться #4

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

В трансформере линейный делается не для всех пикселей, а для каждого слова отдельно

https://github.com/sahajgarg/image_transformer/blob/master/image_transformer.py

sahajgarg/image_transformer

Pytorch implementation of the image transformer for unconditional image generation - sahajgarg/image_transformer

источник

03:30пожаловаться #5

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

https://github.com/sahajgarg/image_transformer/blob/master/image_transformer.py

sahajgarg/image_transformer

Pytorch implementation of the image transformer for unconditional image generation - sahajgarg/image_transformer

единственная имплементация которую видел, тут Linear

источник

03:30пожаловаться #6

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ну

источник

03:31пожаловаться #7

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

сравнение слов и пикселей в контексте конвы и линеар и их "мощности" немного не корректны.

источник

03:31пожаловаться #8

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Почему, линеар равен свертки 1 на 1

источник

03:31пожаловаться #9

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Почему, линеар равен свертки 1 на 1

в трансформере свертка 1 на 1 ?

источник

03:32пожаловаться #10

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

в трансформере свертка 1 на 1 ?

я уже писал, что там 4 на 4 свертка.

источник

03:32пожаловаться #11

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

В трансформере линейный слой, который тоже самое что свёртка 1 на 1

источник

03:33пожаловаться #12

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

тогда суммируем, в модели САГАНа в имплементации нет линеарного слоя после внимания, а есть свертка 4 на 4.
В имеж трансформере есть линеарный слоя после аттешена (в самом атеншене), а в декодер лаере есть лаер аттеншнена и двойной слой линеар.
В обычном аттеншен лаере есть один линеар.
Вот я и начал с этого, вопрос на счет интуитивного понимания трех этих вариантов. "обычный трансформер" это не интуиция, единственное что говорится в статье об этом, в картинке приложенной, но из этого интуитивно мне не очень понятно.

источник

03:38пожаловаться #13

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

тогда суммируем, в модели САГАНа в имплементации нет линеарного слоя после внимания, а есть свертка 4 на 4.
В имеж трансформере есть линеарный слоя после аттешена (в самом атеншене), а в декодер лаере есть лаер аттеншнена и двойной слой линеар.
В обычном аттеншен лаере есть один линеар.
Вот я и начал с этого, вопрос на счет интуитивного понимания трех этих вариантов. "обычный трансформер" это не интуиция, единственное что говорится в статье об этом, в картинке приложенной, но из этого интуитивно мне не очень понятно.

причем в САГАНЕ как я писал, эта свертка не связана с аттеншеном, она и не в его классе, в отличие от других статей, где dense, linear и тд инитиализированны в самом аттеншене.

источник

03:38пожаловаться #14

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

нет в этой имплементации линеар

источник

03:41пожаловаться #15

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

тогда суммируем, в модели САГАНа в имплементации нет линеарного слоя после внимания, а есть свертка 4 на 4.
В имеж трансформере есть линеарный слоя после аттешена (в самом атеншене), а в декодер лаере есть лаер аттеншнена и двойной слой линеар.
В обычном аттеншен лаере есть один линеар.
Вот я и начал с этого, вопрос на счет интуитивного понимания трех этих вариантов. "обычный трансформер" это не интуиция, единственное что говорится в статье об этом, в картинке приложенной, но из этого интуитивно мне не очень понятно.

Фотка из Сагана как бы. Там должна быть свёртка в self-attention, если не положили в, значит положили после, если не положили после, значит неправильно имплементировали.

В ванильном трансформере, коим саган не является, блок состоит из self-attention + 2 линейных слоя. https://habr.com/ru/post/486358/, приятная понятная статья.

Transformer в картинках

В прошлой статье мы рассматривали механизм внимания (attention) – чрезвычайно распространенный метод в современных моделях глубокого обучения, позволяющий улучши...

источник

03:43пожаловаться #16

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Фотка из Сагана как бы. Там должна быть свёртка в self-attention, если не положили в, значит положили после, если не положили после, значит неправильно имплементировали.

В ванильном трансформере, коим саган не является, блок состоит из self-attention + 2 линейных слоя. https://habr.com/ru/post/486358/, приятная понятная статья.

Transformer в картинках

В прошлой статье мы рассматривали механизм внимания (attention) – чрезвычайно распространенный метод в современных моделях глубокого обучения, позволяющий улучши...

ну вот, я с этого и начал, что похоже что двойной ФФ в трансформерах работающих традиционно с словами, а значит с их эмбедингами, вот для работы с эмбедингом мне понтно почему двойной слой ФФ, потому что это репрезентация слова в latent space.
А дальше думать надо нахрена оно в трансформерах для картинок.

источник

03:45пожаловаться #17

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Слово == пиксель

источник

03:47пожаловаться #18

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Тоже должно передавать смысловую информацию и иметь особенности.

источник

03:48пожаловаться #19

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Слово == пиксель

слово = цифра и ее эмбединг. Аттеншен в любом случае работает обычно на фичермапе, тут уже не пиксель, а условно говоря его эмбединг. Может быть и есть аналогия, надо подумать. Ну то есть чисто грубо говоря похоже.

источник

03:49пожаловаться #20