Телеграмм чат группы ds_kz страница 2821

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Science Kazakhstan (DS/ML kz)

2524 membersпожаловаться на группу

2020 April 25

MK

Minhyun Kim in Data Science Kazakhstan (DS/ML kz)

Всем привет! Подскажите, пожалуйста. Вопрос про использование предобученных сетей, заморозку слоев и про обучение только части сети.

В задаче нужно находить точки на изображении. Использую resnet50 предобученную на ImageNet. Заменяю выход последнего слоя с 1000 классов на количество точек*2 (х и у координата)

import torchvision.models as models
...
model = models.resnet50(pretrained=True, )
model.fc = nn.Linear(model.fc.in_features, 2 * NUM_PTS, bias=True)

Для начала хотел попробовать обучить только последний fc слой

# freeze all layers
for param in model.parameters():
param.requires_grad = False

# train only head
model.fc.weight.requires_grad = True
model.fc.bias.requires_grad = True

Я рассчитывал, что обучение у такой сети будет гораздо быстрей, чем когда все слои разморожены. Но на мое удивление скорость осталась практически той же самой на эпоху 20 мин vs 17 минут

Вопрос. Правильно ли я заморозил слои? Разве сеть не должна обучаться быстрей, чем если бы все слои были разморожены?

насчет скорости, точно сказать не могу, но заморозил верно

источник

18:48пожаловаться #1

S

Stepan in Data Science Kazakhstan (DS/ML kz)

Спасибо!
на всякий случай скину еще оптимизатор, но там напутать сложно
optim.Adam([p for p in model.parameters() if p.requires_grad], lr=args.learning_rate, amsgrad=True)

источник

18:51пожаловаться #2

Е

Елес in Data Science Kazakhstan (DS/ML kz)

Ого

источник

18:52пожаловаться #3

S

Stepan in Data Science Kazakhstan (DS/ML kz)

я понимаю что forward остался прежним, но backward то должен был стать короче, меньше градиентов считать следовательно общее время на эпоху должно было бы сократиться

источник

18:58пожаловаться #4

Е

Елес in Data Science Kazakhstan (DS/ML kz)

я понимаю что forward остался прежним, но backward то должен был стать короче, меньше градиентов считать следовательно общее время на эпоху должно было бы сократиться

Да

источник

18:59пожаловаться #5

MK

Minhyun Kim in Data Science Kazakhstan (DS/ML kz)

Спасибо!
на всякий случай скину еще оптимизатор, но там напутать сложно
optim.Adam([p for p in model.parameters() if p.requires_grad], lr=args.learning_rate, amsgrad=True)

по сути, ты уже прописал

required_grad=False

поэтому можно в оптим закинуть тупо model.parameters()

источник

18:59пожаловаться #6

AB

Azamat Berdysh in Data Science Kazakhstan (DS/ML kz)

я понимаю что forward остался прежним, но backward то должен был стать короче, меньше градиентов считать следовательно общее время на эпоху должно было бы сократиться

Оценка градиент в реверс мод автодифференцировании, при условии что ты уже высчитываешь форвард пас, очень дешёвая (O(1)). Более того при бакпропе, чтобы оценить градиенту для слоя, алгоритму необходимо оценить градиенты для всех последующих слоёв. Соответственно, чем ближе твой размороженный слой ко входу, тем меньше вычислений ты экономишь (для первого слоя не экономишь вообще ничего)

источник

20:04пожаловаться #7

S

Stepan in Data Science Kazakhstan (DS/ML kz)

Спасибо! Можно, пожалуйста, поподробней, почему для градиента нужны последующие слои? Или указать на что почитать, а то запутался. Вроде как идем от выхода сети к началу.

источник

23:45пожаловаться #8

S

Stepan in Data Science Kazakhstan (DS/ML kz)

Была идея, которая пока не подтвердилась на практике. Взяв предобученную сеть и заменив у нее последний слой, чтобы не гонять ошибку сразу по всей сети, я думал постепенно размораживать слои. Подучил первый слой, он теперь не создает такую огромную ошибку, потом разморозил второй, подучил их оба и т.д. но результаты такого обучения получились хуже чем когда просто учил всю сеть сразу целиком. Может просто совпадение и нужно больше опытов провести

источник

23:48пожаловаться #9

2020 April 26

IS

Iska Shaikh in Data Science Kazakhstan (DS/ML kz)

Была идея, которая пока не подтвердилась на практике. Взяв предобученную сеть и заменив у нее последний слой, чтобы не гонять ошибку сразу по всей сети, я думал постепенно размораживать слои. Подучил первый слой, он теперь не создает такую огромную ошибку, потом разморозил второй, подучил их оба и т.д. но результаты такого обучения получились хуже чем когда просто учил всю сеть сразу целиком. Может просто совпадение и нужно больше опытов провести

когда настанет время когда я буду понимать вас😂

источник

00:51пожаловаться #10

A

Aykhan in Data Science Kazakhstan (DS/ML kz)

Была идея, которая пока не подтвердилась на практике. Взяв предобученную сеть и заменив у нее последний слой, чтобы не гонять ошибку сразу по всей сети, я думал постепенно размораживать слои. Подучил первый слой, он теперь не создает такую огромную ошибку, потом разморозил второй, подучил их оба и т.д. но результаты такого обучения получились хуже чем когда просто учил всю сеть сразу целиком. Может просто совпадение и нужно больше опытов провести

О, я это на курсе нлп от Самсунга на Степике слышал

источник

00:53пожаловаться #11

S

Sneddy in Data Science Kazakhstan (DS/ML kz)

https://m.habr.com/ru/company/yandex/blog/498856/

Очень Продвинутый курс по разработке на python

Как научиться разработке на Python: новый видеокурс Яндекса

Осенью прошлого года в московском офисе Яндекса прошла первая Школа бэкенд-разработки. Мы сняли занятия на видео и сегодня рады поделиться на Хабре полным видеок...

источник

01:53пожаловаться #12

AB

Azamat Berdysh in Data Science Kazakhstan (DS/ML kz)

Была идея, которая пока не подтвердилась на практике. Взяв предобученную сеть и заменив у нее последний слой, чтобы не гонять ошибку сразу по всей сети, я думал постепенно размораживать слои. Подучил первый слой, он теперь не создает такую огромную ошибку, потом разморозил второй, подучил их оба и т.д. но результаты такого обучения получились хуже чем когда просто учил всю сеть сразу целиком. Может просто совпадение и нужно больше опытов провести

На форвард пасе ты идешь от входа к выходу высчитывая значения каждого узла в твоём вычислительном графе. В след за этим, в бэквард пасе ты идёшь наоборот от выхода к входу и используешь уже посчитанные в форвард пасе значения узлов чтобы оценить пуллбэки (aka vector-Jacobian products).
Соответственно если ты тренируешь все слои, то он может апдейтить их всех за один форвард пас и один бэквард пас.
Тогда как если ты тренируешь слои по отдельности, то при тренировке каждого слоя ему надо пересчитывать заново форвард пас (который стоит столько же как и в первом случае) и бэквард пас (который для одного конкретного слоя дешевле, так как параметров меньше, но не на много, так как в первом случае ты высчитываешь градиенту для пэрент ноуда 1 раз и реюзаешь её для всех чайлд ноудов и поэтому стоимость амортизируется по всем чайлдам)

источник

02:11пожаловаться #13

AB

Azamat Berdysh in Data Science Kazakhstan (DS/ML kz)

Например, для обычного dense слоя x ↦ σ(Wx + b) имеем:
∂Loss/∂W = (∂Loss/∂σ)(∂σ/∂W)
∂Loss/∂b = (∂Loss/∂σ)(∂σ/∂b)
Если ты тренируешь W и b по отдельности, то для каждого из них он будет заново высчитывать узлы 1) y = Wx 2) z = y+b 3) u = σ(z) etc. в форвард пасе, а потом ещё в бэквард пасе для каждого из них будет заново пересчитывать ∂Loss/∂σ. Тогда как если ты тренируешь их вместе то он всё это посчитает только 1 раз

источник

02:13пожаловаться #14

A

Aykhan in Data Science Kazakhstan (DS/ML kz)

Кто нибудь пытался запустить pytorch lightning на tpu? У меня чет не получается

источник

06:28пожаловаться #15

A

Anel in Data Science Kazakhstan (DS/ML kz)

когда настанет время когда я буду понимать вас😂

Я тоже мечтаю о таком дне 😂

источник

10:30пожаловаться #16

Е

Елес in Data Science Kazakhstan (DS/ML kz)

Anel

Я тоже мечтаю о таком дне 😂

о Дне? Днооооооо!

источник

10:30пожаловаться #17

D

Duman in Data Science Kazakhstan (DS/ML kz)

всем привет! Вопрос насчет R: как можно убрать scientific notation в rpart?

пробовал менять значение в options(scipen), также пробовал менять значение в digits на отрицательное, но plot все так же показывает числа именно так.

Мой код:

plot(dtree1, uniform=TRUE, main="Classification Tree for Churn")
text(dtree1, use.n=TRUE, all=TRUE, cex=.8)

источник

11:11пожаловаться #18

D

Darkhan in Data Science Kazakhstan (DS/ML kz)

всем привет! Вопрос насчет R: как можно убрать scientific notation в rpart?

пробовал менять значение в options(scipen), также пробовал менять значение в digits на отрицательное, но plot все так же показывает числа именно так.

Мой код:

plot(dtree1, uniform=TRUE, main="Classification Tree for Churn")
text(dtree1, use.n=TRUE, all=TRUE, cex=.8)

Scipen 999 не помог?

источник

11:16пожаловаться #19

D

Duman in Data Science Kazakhstan (DS/ML kz)

нет

источник

11:17пожаловаться #20