Size: a a a

Machine learning

2021 January 28

NP

Nikolay Pavlenko in Machine learning
У меня есть маленькая выборка(~3500 семплов). 700 оставляю на тест, остальное на обучение. Беру бустинг без подбора гиперпараметров и в кросс-валидации проверяю качество. Валидационное качество получается в районе 73-74(аук), а трейн качество в районе 80. При этом трейн качество примерно такое же как и тест. Не могу до конца понять, это оверфит или что? Буду рад любым ответам. Спасибо
источник

K

K-S in Machine learning
Да вполне норма. Хотя при таком небольшом наборе данных имеет смысл как минимум:

1) попробовать алгоритмы попроще
2) покрутить все же параметры у бустинга
источник

i

igor in Machine learning
Тест качество такое же как и тест?
источник

i

igor in Machine learning
Как это?
источник

i

igor in Machine learning
Должнл иначе?
источник

K

K-S in Machine learning
имелось в виду качество на cv и на отложенном тесте, видимо
источник

NP

Nikolay Pavlenko in Machine learning
igor
Тест качество такое же как и тест?
Отредактировал. Спасибо. трейн ~ тест. Cv качество значительно хуже
источник

NP

Nikolay Pavlenko in Machine learning
K-S
Да вполне норма. Хотя при таком небольшом наборе данных имеет смысл как минимум:

1) попробовать алгоритмы попроще
2) покрутить все же параметры у бустинга
Понял, спасибо
источник

NP

Nikolay Pavlenko in Machine learning
При этом пробывал шафлить датасет много раз, перед тем как отложить тест. Всегда получается такая же картина
источник

i

igor in Machine learning
Nikolay Pavlenko
Отредактировал. Спасибо. трейн ~ тест. Cv качество значительно хуже
извините а где качество хуже? что-то туплю
источник

NP

Nikolay Pavlenko in Machine learning
igor
извините а где качество хуже? что-то туплю
Качество хуже на cv
источник

K

K-S in Machine learning
вы ж писали, что на cv и отложенном тесте качество одинаковое
источник

K

K-S in Machine learning
то, что на cv качество хуже, чем на трейне -- это и неудивительно.
источник

NP

Nikolay Pavlenko in Machine learning
Наверное, не совсем ясно сформулировал. Качество на cv значительно хуже чем на тесте и трейне. На тесте и трейне почти одинаковые
источник

ИД

Илья Дагиль... in Machine learning
Добрый вечер! Вопрос по C2W1: по заданию нужно построить боксплот: написал код, а юпитер почему-то бесконечно грузит ячейку. Подскажите что делаю не так
источник

GK

George Kasoev in Machine learning
Илья Дагиль
Добрый вечер! Вопрос по C2W1: по заданию нужно построить боксплот: написал код, а юпитер почему-то бесконечно грузит ячейку. Подскажите что делаю не так
мне помогло в аргументах икс и игрек местами поменять
источник

ИД

Илья Дагиль... in Machine learning
George Kasoev
мне помогло в аргументах икс и игрек местами поменять
Ого, спасибо)) не ожидал... А Вы разобрались почему это так работает?
источник

GK

George Kasoev in Machine learning
Илья Дагиль
Ого, спасибо)) не ожидал... А Вы разобрались почему это так работает?
какой-то внутренний прикол библиотеки, я предпочел не вникать, а просто принять как данное)
источник

ИД

Илья Дагиль... in Machine learning
понял, спасибо за помощь!)
источник

i

igor in Machine learning
Nikolay Pavlenko
Наверное, не совсем ясно сформулировал. Качество на cv значительно хуже чем на тесте и трейне. На тесте и трейне почти одинаковые
Кажется странным
источник