Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 March 28

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Вам не нравится fc для пикселей, потому что в первом слое мы шлём значения пикселя, а не его эмбединг?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Вам не нравится fc для пикселей, потому что в первом слое мы шлём значения пикселя, а не его эмбединг?
не ну в моей имплементации, и в том же САГАНе с обычным аттеншеном, не трансформером, аттеншен работает на фичермапе.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
А фичер мап это условно говоря эмбединг пикселей.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
так что тут все норм в сравнение.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
я по большему счету пока согласен с таким видением.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Можно как ViT слать эмбединг патча 16 на 16, если вам угодно, можно и после пиксельного слоя поставить линейный и магически получить этот эмбединг, только зачем?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Можно как ViT слать эмбединг патча 16 на 16, если вам угодно, можно и после пиксельного слоя поставить линейный и магически получить этот эмбединг, только зачем?
ну так конв это тот же эмбединг, только "ограниченный" линеар, тут у меня возражений как раз нету.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
ну так конв это тот же эмбединг, только "ограниченный" линеар, тут у меня возражений как раз нету.
Это вообще не понял
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Фух, похоже мы с вами ни к чему не придём
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
nn.Embedding это почти одно и тоже что nn.Linear на число, которое выбрано для слова в словаре.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Да
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Фух, похоже мы с вами ни к чему не придём
не, я как раз вывод уже сделал, та имплементация где нет линеар просто промах.  Остается тогда два варианта, чисто аттеншен, или декодер с двойным млп как в траснформере.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
но зачем в трансформере например двойной млп, если аттеншен то был для слов и до этого, и без двойного млп как то работали, вот тут надо сравнить обычный аттеншен и трансформер еще раз.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
не, я как раз вывод уже сделал, та имплементация где нет линеар просто промах.  Остается тогда два варианта, чисто аттеншен, или декодер с двойным млп как в траснформере.
Да, self-attention как механизм очень неплох. Для свёрток часто  используется ECA всякий.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Можно как ViT слать эмбединг патча 16 на 16, если вам угодно, можно и после пиксельного слоя поставить линейный и магически получить этот эмбединг, только зачем?
я в ViT тоже пока не понял зачем там эмбединг для патчей.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
то есть там на выходе классификатор,в ванильном ViT, но есть еще статья где TransGan, надо еще раз в ней посмотреть как генерация.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
но зачем в трансформере например двойной млп, если аттеншен то был для слов и до этого, и без двойного млп как то работали, вот тут надо сравнить обычный аттеншен и трансформер еще раз.
Двойной млп, потому что сеть на них думает.
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
я в ViT тоже пока не понял зачем там эмбединг для патчей.
Для уменьшения размерности
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Фотка из Сагана как бы. Там должна быть свёртка в self-attention, если не положили в, значит положили после, если не положили после, значит неправильно имплементировали.

В ванильном трансформере, коим саган не является, блок состоит из self-attention + 2 линейных слоя. https://habr.com/ru/post/486358/, приятная понятная статья.
Я бы это посоветовал почитать
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vadim Chashechnikov
Двойной млп, потому что сеть на них думает.
ну так и на одном линеар в обычном аттеншене, которым заменили традиционные rnn-lstm.
источник