Size: a a a

Machine learning

2021 June 29

DP

Dmitry Penzar in Machine learning
источник

DP

Dmitry Penzar in Machine learning
он выбирает вероятностно лучший результат, в предположении, что у вас еще train распределен так же, как test. Потому в принципе могут быть любые соотношения.
А еще лучше делать несколько разных cv разбиений.

но тут еще полезно посмотреть на std, т.к скорее всего в вашем случае  разница двух критериев статистически отличаться не будет
источник

СГ

Сергей Городовиков... in Machine learning
'std_test_score': array([0.00189322, 0.00156927])
источник

DP

Dmitry Penzar in Machine learning
ну и mean_test_score. Дальше строите дов. интервал и смотрите. Ну или просто +- std
источник

СГ

Сергей Городовиков... in Machine learning
причем, ни при одном разбиении за 0.91 не вышло, а дефолтный метод вышел
источник

СГ

Сергей Городовиков... in Machine learning
вообще интересная статистика, не знал раньше об этом, спасибо)
источник

СГ

Сергей Городовиков... in Machine learning
'mean_test_score': array([0.89978097, 0.90004965]) тоже так себе
источник

DP

Dmitry Penzar in Machine learning
😊)
источник

OA

Oleg Antonovich in Machine learning
Не вышло, потому что валидировалось всегда но новых данных.
А дефолт валидируется на том, на чем и тренируется
источник

СГ

Сергей Городовиков... in Machine learning
т.е. фактически дефолтный метод более переобучен?
источник

OA

Oleg Antonovich in Machine learning
Конечно
В этом и основная суть CV - борьба с переобучением
источник

DP

Dmitry Penzar in Machine learning
да не было никаких новых данных тут
источник

DP

Dmitry Penzar in Machine learning
не надо искать смысл, там где его нет
источник

DP

Dmitry Penzar in Machine learning
в одном случае идет валидация по фолдам, во втором - на тесте. В обоих случаях модель не видела данных.

Более того, в случае с cv это не совсем правда - как раз он на фолдах чуть переобучается.
источник

DP

Dmitry Penzar in Machine learning
условно можно набрать 1 млн комбинаций гиперпараметров и получить на cv скор 1 просто потому что так случайно вышло
источник

СГ

Сергей Городовиков... in Machine learning
так, теперь все начинает вставать на свои места) Спасибо!
источник

СГ

Сергей Городовиков... in Machine learning
в случае с cv да, она тестовую выборку не видел. а дефолтный метод, получается переобучился, но за счет этого повысил качество на том, что знает
источник

DP

Dmitry Penzar in Machine learning
в какой момент он ее у вас увидел?
источник

DP

Dmitry Penzar in Machine learning
у вас fit идет на X_train, а тестируете на X_test
источник

СГ

Сергей Городовиков... in Machine learning
я согласен, при обучении он ее не видел, тестовую выборку
источник