если правильно помню (но могу наврать) то если у тебя дисбаланс классов результирующих (например 1000 входов класса А и 10 класса Б), то чтоб не переучивалось классу А на обратном распространении увеличивают значение на которое обучаются нейроны для класса Б. В данном случае мы увеличиваем в 100 раз. Грубо говоря для класса Б мы learning rate модифицируем в 100 раз, типа он был 0.0001 то для А он остается таким, а для Б становится 0.01 .