Телеграмм чат группы bigdata

Вы, кстати, уверены, что полностью знаете, как работает батч норм? Я полгода назад выяснил, что я неправильно его понимал на самом деле. Если PyTorch, то надо понимать, как на батч норм влияют: affine True or False, track_running_stats True or False, .train() и .eval() режимы. А также как работает momentum=None и momentum=0.9 (или любая другая ненулевая константа).

источник

08:23пожаловаться #11

Timofey Naumenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Вообще, в Вашей задаче самое главное это добиться эквивалентности обучения с батчем 1, и, например 20, только для .train() режима. А сделать это непросто, если это ещё не написали до вас

источник

08:26пожаловаться #12

Timofey Naumenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

И через momentum аргумент у батч норма это не решить - градиенты по статистикам учитываться не будут

источник

08:28пожаловаться #13

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

ну я примерно на том же остановился, посмотрел его форвард, увидел что статистики оказывается собираются в нем, а не в бэкварде (мне как то второе было более интуитивно), но пока что пробую избежать вообще тренировки в batchsize=1 mode.

На самом деле оно и не должно работать с батчом в размер 1, даже возможно с аккамуляцией (у меня там возможно улучшало за счет другой технической фишки, которая скорее баг, чем закономерность).

Но возможно и не придется, пока рано сказать. До старших дошло, что лучше повозиться с тем, как увеличить батч в том алгоритме.

источник

08:28пожаловаться #14

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

не очень понимаю, почему в трейн моде работало.

источник

08:29пожаловаться #15

Timofey Naumenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

У вас ограничение по памяти, или принципиальное, в лоссе/модели?

источник

08:29пожаловаться #16

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

но да надо его от А до Я изучить