А есть какое-то объяснение тому, что на тренировочной выборке mse намного больше чем на тестовой. (Ну то что на тестовой точность скачет это то понятно, так как backpropagation происходит на тренировочонй)
мне кажется нужно смотреть, что там у вас тестовое, а что тренировочное.