Добрый день. Подскажите, пожалуйста, есть binary classification модель обученная на ~50М записей, 50/50 распределение 0/1 label в training 80%/test 20% data set, 11 categorical, 3 numerical features, 20 iterations. Все метрики выглядят слишком хорошо даже если применить модель на данных которых модель не видела до этого, logloss ~0.01, accuracy/precision ~0.99, и другие метрики. Но что то подсказывает что слишком все хорошо. Больше фич (40 штук) добавляли и картина примерно такая же. Как бороться, на что посмотреть, или улучшать сам дата сет как то?