ну я примерно на том же остановился, посмотрел его форвард, увидел что статистики оказывается собираются в нем, а не в бэкварде (мне как то второе было более интуитивно), но пока что пробую избежать вообще тренировки в batchsize=1 mode.
На самом деле оно и не должно работать с батчом в размер 1, даже возможно с аккамуляцией (у меня там возможно улучшало за счет другой технической фишки, которая скорее баг, чем закономерность).
Но возможно и не придется, пока рано сказать. До старших дошло, что лучше повозиться с тем, как увеличить батч в том алгоритме.