Тем временем, у меня с этим видом свертки batchnorm2d даёт 1 для weights и 0 для bias 0_0 для не pretrained сети. И при этом взрыв forward pass через nan. Хотя mean увеличивается и std увеличивается. Соответственно, вывод что batchnorm просто отказывается работать и шлёт меня на 3 буквы. Пробовал track_running_stats=False (вдруг там какой-то баг с eval). Все равно 1 0. Как это вообще фиксить?
Тем временем, у меня с этим видом свертки batchnorm2d даёт 1 для weights и 0 для bias 0_0 для не pretrained сети. И при этом взрыв forward pass через nan. Хотя mean увеличивается и std увеличивается. Соответственно, вывод что batchnorm просто отказывается работать и шлёт меня на 3 буквы. Пробовал track_running_stats=False (вдруг там какой-то баг с eval). Все равно 1 0. Как это вообще фиксить?
Не понял вопроса. Я не использую hook. Вывожу простым принтом. Прикол в том, что я не могу сделать даже один проход, на каком-то layer он просто взрывается. При этом видно, что нарастание происходит с самого первого слоя.
Не понял вопроса. Я не использую hook. Вывожу простым принтом. Прикол в том, что я не могу сделать даже один проход, на каком-то layer он просто взрывается. При этом видно, что нарастание происходит с самого первого слоя.
Если выключить track_running_stats все равно наны?