Size: a a a

Machine learning

2021 January 28

i

igor in Machine learning
Илья Дагиль
Ого, спасибо)) не ожидал... А Вы разобрались почему это так работает?
Какая то магия в этом курсе
источник
2021 January 29

AS

Artem S. in Machine learning
Nikolay Pavlenko
У меня есть маленькая выборка(~3500 семплов). 700 оставляю на тест, остальное на обучение. Беру бустинг без подбора гиперпараметров и в кросс-валидации проверяю качество. Валидационное качество получается в районе 73-74(аук), а трейн качество в районе 80. При этом трейн качество примерно такое же как и тест. Не могу до конца понять, это оверфит или что? Буду рад любым ответам. Спасибо
имеет смысл вывести график roc_auc по каждому фолду, станет понятно - несколько волатилен рок аук, или может там будут в целом все фолды +-с таким стабильным скором

в кейсе волатильного скора поддерживаю предложение K-S. возможно, волатильность скора вызвана малым числом наблюдений и большой дисперсией y, и возможно это получится побороть снижением числа фолдов, или сменой модели

а то что при шафле получается "одна и та же картина" - это странно. насколько похожая? ровно те же скоры? или примерно такие же? можно покрутить random_state
источник

NP

Nikolay Pavlenko in Machine learning
Artem S.
имеет смысл вывести график roc_auc по каждому фолду, станет понятно - несколько волатилен рок аук, или может там будут в целом все фолды +-с таким стабильным скором

в кейсе волатильного скора поддерживаю предложение K-S. возможно, волатильность скора вызвана малым числом наблюдений и большой дисперсией y, и возможно это получится побороть снижением числа фолдов, или сменой модели

а то что при шафле получается "одна и та же картина" - это странно. насколько похожая? ровно те же скоры? или примерно такие же? можно покрутить random_state
Количество фолдов подбирал так, чтобы дисперсия между фолдами была минимальная. Примерно похожи скоры, 78-80 колеблются.
источник

NP

Nikolay Pavlenko in Machine learning
Попробую сменить модель на более простую
источник

SS

Sergey Salnikov in Machine learning
эмпирически - минимальная дисперсия при разбиении на 2 фолда, например repeated kfold 5x2. иногда можно получить ещё меньшую дисперсию, если использовать обычный монте-карловский сплит (из серии ShuffleSplit) 10x.1, т.е.10 разбиений по train_size=.1
источник

SS

Sergey Salnikov in Machine learning
(исправил) train_size именно .1, а test_size - оставшиеся 90%
источник

i

igor in Machine learning
Sergey Salnikov
эмпирически - минимальная дисперсия при разбиении на 2 фолда, например repeated kfold 5x2. иногда можно получить ещё меньшую дисперсию, если использовать обычный монте-карловский сплит (из серии ShuffleSplit) 10x.1, т.е.10 разбиений по train_size=.1
это уже какое-то колдунство
источник

SS

Sergey Salnikov in Machine learning
сам удивился, когда построил скаттер для train_size/score
источник

SS

Sergey Salnikov in Machine learning
получился конус
источник

SS

Sergey Salnikov in Machine learning
правда я тренировался на кошках (make_classification)
источник

YS

Yuriy Saraikin in Machine learning
Егор Овчинников
Но ведь по идее мне нужно сложить количество людей из первой группы с количеством второй и отнять 2. Но не указано, сколько людей в группах. Или я что-то не понимаю
Посмотрите формулу m. В ней p - известно, m - известно. Вам нужно из формулы m выразить n при известных m и p.
источник

DP

Dmitry Penzar in Machine learning
Nikolay Pavlenko
Количество фолдов подбирал так, чтобы дисперсия между фолдами была минимальная. Примерно похожи скоры, 78-80 колеблются.
Дисперсия чего?
источник

DP

Dmitry Penzar in Machine learning
Nikolay Pavlenko
Наверное, не совсем ясно сформулировал. Качество на cv значительно хуже чем на тесте и трейне. На тесте и трейне почти одинаковые
Еще один глупый вопрос, а вы кроссвалидацию как делаете? По-умолчанию та, что в питоне, не шафлит ваши примеры.
источник

NP

Nikolay Pavlenko in Machine learning
Dmitry Penzar
Дисперсия чего?
Дисперсия рокауков на кросс-валидации.
Использую StratifiKFold.
источник

DP

Dmitry Penzar in Machine learning
Он тоже по-умолчанию не шафлит
источник

NP

Nikolay Pavlenko in Machine learning
Я шафлю весь трейн перед кросс-валилацией. Хотя возможно в этом и есть проблема. Попробую по-другому, спасибо
источник

DP

Dmitry Penzar in Machine learning
Sergey Salnikov
эмпирически - минимальная дисперсия при разбиении на 2 фолда, например repeated kfold 5x2. иногда можно получить ещё меньшую дисперсию, если использовать обычный монте-карловский сплит (из серии ShuffleSplit) 10x.1, т.е.10 разбиений по train_size=.1
Дисперсию рокауков не надо стремиться уменьшить. Во всяком случае, не так. В статье про 5x2 кроссвалидацию, что вроде бы вы и скидывали, как раз борются с тем, что многие методы преуменьшают дисперсию, ожидаемую в реальности
источник

NP

Nikolay Pavlenko in Machine learning
Dmitry Penzar
Дисперсию рокауков не надо стремиться уменьшить. Во всяком случае, не так. В статье про 5x2 кроссвалидацию, что вроде бы вы и скидывали, как раз борются с тем, что многие методы преуменьшают дисперсию, ожидаемую в реальности
Ага, прочитаю. Спасибо
источник

I

Ivan in Machine learning
Всем привет!
У кого есть возможность, проверьте, пожалуйста, работу

https://www.coursera.org/learn/supervised-learning/peer/bEMBK/linieinaia-rieghriessiia-i-osnovnyie-bibliotieki-python-dlia-analiza-dannykh-i/review/cBiEe2CkEeuqrBIixUucww

#C2W1
источник

ПВ

Помощь Вам in Machine learning
Добрый день! как в pyqt графе х и у имя давать (легенды)? Ну типа х время в миллисекундах и у это сила в 0,01Н
источник