Телеграмм чат группы ru_deep

там четко написано что конволюция F(MxM, RxR), где МхМ это размеры картинки на выходе, RxR размеры фильтра, требует (M+R-1)(M+R-1) умножений. В нашем случае, для первого уровня: М = 3, R = 3. Значит должно быть минимум (3+3-1)(3+3-1) = 25 умножений. Плюс 9 умножений на втором уровне. Итого 25+9 = 34 умножений. Как они получили 18?

источник

18:54пожаловаться #4

Evgeniy Zheltonozhskiy🇮🇱 in Глубинное обучение (группа)

ID:347198853

На выходе 1х1

источник

18:59пожаловаться #5

ID:347198853 in Глубинное обучение (группа)

это выход второго слоя, на первом выход 3х3

источник

19:00пожаловаться #6

Evgeniy Zheltonozhskiy🇮🇱 in Глубинное обучение (группа)

ID:347198853

это выход второго слоя, на первом выход 3х3

А ты это имеешь ввиду

источник

19:00пожаловаться #7

ID:347198853 in Глубинное обучение (группа)

либо они как то совмещают два уровня, но не пойму как

источник

19:02пожаловаться #8

Evgeny Smirnov in Глубинное обучение (группа)

Допустим у нас на входе один канал, размер выходного изображения 3х3 (т.е. 9 пикселей, а к входному добавляются соответствующие размеру фильтра нулевые паддинги по краям), и свёртка происходит (а) одним слоем с одним фильтром 5х5, (б) двумя последовательными слоями, в каждом по одному фильтру 3х3

тогда в случае (а) получается:
(5*5) * (9) = (25) * (9) операций
в случае (б) получается:
(3*3) * (9) + (3*3) * (9) = (9+9) * (9) = (18) * (9) операций

источник

19:06пожаловаться #9

ID:347198853 in Глубинное обучение (группа)

нет, выходное изображение у нас 1х1

источник

19:09пожаловаться #10

Evgeny Smirnov in Глубинное обучение (группа)

тогда получается (а)
(5*5) * (1) = (25) * (1) операций
(б)
(3*3)*(1) + (3*3)*(1) = (18) * (1) операций

источник

19:11пожаловаться #11

ID:347198853 in Глубинное обучение (группа)

как ты получил (б)?

источник

19:11пожаловаться #12

ID:347198853 in Глубинное обучение (группа)

на первом уровне 5х5 картинка, и по ней ездит 3х3 фильтр

источник

19:12пожаловаться #13

Evgeny Smirnov in Глубинное обучение (группа)

https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/more_images/Convolution_schematic.gif

источник

19:13пожаловаться #14

ID:347198853 in Глубинное обучение (группа)

да, 9 наложений фильтра на 3х3 окно, то есть 3х3х3 умножений, разве нет?

источник

19:14пожаловаться #15

ID:347198853 in Глубинное обучение (группа)

то есть 3х3х9

источник

19:14пожаловаться #16

ID:347198853 in Глубинное обучение (группа)

используя метод Винограда, мы уменьшаем это число до 25

источник

19:15пожаловаться #17

ID:347198853 in Глубинное обучение (группа)

(причем добавляется куча сложений)

источник

19:16пожаловаться #18

ID:347198853 in Глубинное обучение (группа)

там же написано что минимальное число умножений это количество входов, то есть 5х5=25

источник

19:19пожаловаться #19

Evgeny Smirnov in Глубинное обучение (группа)

Давай я попробую объяснить без привязки к статье и формулам минимального числа умножений и прочего

Вот у нас есть, например, входной feature map размером NxN (количество каналов для простоты будем брать = 1), и мы хотим получить двумя способами (свёрткой 5х5 или двумя свёртками 3х3) выходной feature map также размером NxN

<Лирическое отступление>
для того, чтобы сохранился размер feature map после свёрточного слоя с ядром KxK , K>1 добавляют нулевой паддинг, т.е. увеличивают входное изображение, добавляя границы по бокам
для свёртки 5x5 это будет по два пикселя с каждой стороны, для свёртки 3х3 - один пиксель с каждой стороны. Допустим мы их добавляем, т.к. мы хотим одинаковые размеры NxN на выходе.
</Лирическое отступление>

Получается:
А) Чтобы получить выходной feature map размером NxN одной свёрткой 5х5 мы должны пройти центром этой свёртки по NxN точкам исходного feature map и каждый раз провести 5х5 умножений, получится (25) * (N*N) операций
Б) Чтобы получить выходной feature map размером NxN двумя последовательными свёртками 3х3 мы должны:
1) Пройти центром первой свёртки 3х3 по NxN точкам исходного feature map, каждый раз провести 3х3 умножений, получится (9) * (N*N) операций и на выходе - промежуточный feature map размером NxN
2) Пройти центром второй свёртки 3х3 по NxN точкам промежуточного feature map-а, каждый раз производя 3х3 умножений, получится ещё (9) * (N*N) операций - и на выходе - итоговый feature map размером NxN
В итоге получается (9)*(N*N) + (9)*(N*N) = 18 * (N*N) операций, что в 25/18 раз меньше

источник

19:35пожаловаться #20