По поводу это статьи: всё равно пользуются стандартными инициализаторами.
В статье вкратце теория о том, что более благоприятная инициализация та, из-за которой в самом начале GD будет не сильно шататься.
Также показывают, что стандартные инициализаторы довольно неплохи.
Так что He, Glorot. Тут уже неважно. Для BN: gamma=1, beta=0.
Это значит, что градиент почти всегда не застрявает или не взрывается ? Закономерность ?