Телеграмм чат группы datasciencecourse страница 5312

18:15пожаловаться #1

он выбирает вероятностно лучший результат, в предположении, что у вас еще train распределен так же, как test. Потому в принципе могут быть любые соотношения.
А еще лучше делать несколько разных cv разбиений.

но тут еще полезно посмотреть на std, т.к скорее всего в вашем случае разница двух критериев статистически отличаться не будет

18:17пожаловаться #2

СГ

'std_test_score': array([0.00189322, 0.00156927])

18:18пожаловаться #3

ну и mean_test_score. Дальше строите дов. интервал и смотрите. Ну или просто +- std

18:19пожаловаться #4

СГ

причем, ни при одном разбиении за 0.91 не вышло, а дефолтный метод вышел

18:19пожаловаться #5

СГ

вообще интересная статистика, не знал раньше об этом, спасибо)

18:20пожаловаться #6

СГ

'mean_test_score': array([0.89978097, 0.90004965]) тоже так себе

18:21пожаловаться #7

😊)

18:21пожаловаться #8

Oleg Antonovich in Machine learning

Не вышло, потому что валидировалось всегда но новых данных.
А дефолт валидируется на том, на чем и тренируется

18:21пожаловаться #9

СГ

т.е. фактически дефолтный метод более переобучен?

18:26пожаловаться #10

Oleg Antonovich in Machine learning

Конечно
В этом и основная суть CV - борьба с переобучением

18:26пожаловаться #11

да не было никаких новых данных тут

18:27пожаловаться #12

не надо искать смысл, там где его нет

18:27пожаловаться #13

в одном случае идет валидация по фолдам, во втором - на тесте. В обоих случаях модель не видела данных.

Более того, в случае с cv это не совсем правда - как раз он на фолдах чуть переобучается.

18:28пожаловаться #14

условно можно набрать 1 млн комбинаций гиперпараметров и получить на cv скор 1 просто потому что так случайно вышло

18:29пожаловаться #15

СГ

так, теперь все начинает вставать на свои места) Спасибо!