Nikolay Pavlenko
У меня есть маленькая выборка(~3500 семплов). 700 оставляю на тест, остальное на обучение. Беру бустинг без подбора гиперпараметров и в кросс-валидации проверяю качество. Валидационное качество получается в районе 73-74(аук), а трейн качество в районе 80. При этом трейн качество примерно такое же как и тест. Не могу до конца понять, это оверфит или что? Буду рад любым ответам. Спасибо
имеет смысл вывести график roc_auc по каждому фолду, станет понятно - несколько волатилен рок аук, или может там будут в целом все фолды +-с таким стабильным скором
в кейсе волатильного скора поддерживаю предложение K-S. возможно, волатильность скора вызвана малым числом наблюдений и большой дисперсией y, и возможно это получится побороть снижением числа фолдов, или сменой модели
а то что при шафле получается "одна и та же картина" - это странно. насколько похожая? ровно те же скоры? или примерно такие же? можно покрутить random_state