Телеграмм чат группы bigdata

Можно как ViT слать эмбединг патча 16 на 16, если вам угодно, можно и после пиксельного слоя поставить линейный и магически получить этот эмбединг, только зачем?

источник

03:52пожаловаться #6

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Можно как ViT слать эмбединг патча 16 на 16, если вам угодно, можно и после пиксельного слоя поставить линейный и магически получить этот эмбединг, только зачем?

ну так конв это тот же эмбединг, только "ограниченный" линеар, тут у меня возражений как раз нету.

источник

03:53пожаловаться #7

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ilya

ну так конв это тот же эмбединг, только "ограниченный" линеар, тут у меня возражений как раз нету.

Это вообще не понял

источник

03:54пожаловаться #8

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Фух, похоже мы с вами ни к чему не придём

источник

03:54пожаловаться #9

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

nn.Embedding это почти одно и тоже что nn.Linear на число, которое выбрано для слова в словаре.

источник

03:54пожаловаться #10

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Да

источник

03:54пожаловаться #11

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Фух, похоже мы с вами ни к чему не придём

не, я как раз вывод уже сделал, та имплементация где нет линеар просто промах. Остается тогда два варианта, чисто аттеншен, или декодер с двойным млп как в траснформере.

источник

03:55пожаловаться #12

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

но зачем в трансформере например двойной млп, если аттеншен то был для слов и до этого, и без двойного млп как то работали, вот тут надо сравнить обычный аттеншен и трансформер еще раз.

источник

03:56пожаловаться #13

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ilya

не, я как раз вывод уже сделал, та имплементация где нет линеар просто промах. Остается тогда два варианта, чисто аттеншен, или декодер с двойным млп как в траснформере.

Да, self-attention как механизм очень неплох. Для свёрток часто используется ECA всякий.

источник

03:56пожаловаться #14

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Можно как ViT слать эмбединг патча 16 на 16, если вам угодно, можно и после пиксельного слоя поставить линейный и магически получить этот эмбединг, только зачем?

я в ViT тоже пока не понял зачем там эмбединг для патчей.

источник

03:56пожаловаться #15

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

то есть там на выходе классификатор,в ванильном ViT, но есть еще статья где TransGan, надо еще раз в ней посмотреть как генерация.

источник

03:57пожаловаться #16

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ilya

но зачем в трансформере например двойной млп, если аттеншен то был для слов и до этого, и без двойного млп как то работали, вот тут надо сравнить обычный аттеншен и трансформер еще раз.

Двойной млп, потому что сеть на них думает.

источник

03:57пожаловаться #17

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ilya

я в ViT тоже пока не понял зачем там эмбединг для патчей.

Для уменьшения размерности

источник

03:57пожаловаться #18

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Фотка из Сагана как бы. Там должна быть свёртка в self-attention, если не положили в, значит положили после, если не положили после, значит неправильно имплементировали.

В ванильном трансформере, коим саган не является, блок состоит из self-attention + 2 линейных слоя. https://habr.com/ru/post/486358/, приятная понятная статья.

Хабр

Transformer в картинках

В прошлой статье мы рассматривали механизм внимания (attention) – чрезвычайно распространенный метод в современных моделях глубокого обучения, позволяющий улучши...

Я бы это посоветовал почитать

источник

03:58пожаловаться #19

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Vadim Chashechnikov

Двойной млп, потому что сеть на них думает.

ну так и на одном линеар в обычном аттеншене, которым заменили традиционные rnn-lstm.

источник

03:58пожаловаться #20