Телеграмм чат группы datasciencecourse страница 4719

2021 January 28

i

igor in Machine learning

Илья Дагиль

Ого, спасибо)) не ожидал... А Вы разобрались почему это так работает?

Какая то магия в этом курсе

источник

23:44пожаловаться #1

2021 January 29

AS

Artem S. in Machine learning

Nikolay Pavlenko

У меня есть маленькая выборка(~3500 семплов). 700 оставляю на тест, остальное на обучение. Беру бустинг без подбора гиперпараметров и в кросс-валидации проверяю качество. Валидационное качество получается в районе 73-74(аук), а трейн качество в районе 80. При этом трейн качество примерно такое же как и тест. Не могу до конца понять, это оверфит или что? Буду рад любым ответам. Спасибо

имеет смысл вывести график roc_auc по каждому фолду, станет понятно - несколько волатилен рок аук, или может там будут в целом все фолды +-с таким стабильным скором

в кейсе волатильного скора поддерживаю предложение K-S. возможно, волатильность скора вызвана малым числом наблюдений и большой дисперсией y, и возможно это получится побороть снижением числа фолдов, или сменой модели

а то что при шафле получается "одна и та же картина" - это странно. насколько похожая? ровно те же скоры? или примерно такие же? можно покрутить random_state

источник

00:19пожаловаться #2

NP

Nikolay Pavlenko in Machine learning

Artem S.

имеет смысл вывести график roc_auc по каждому фолду, станет понятно - несколько волатилен рок аук, или может там будут в целом все фолды +-с таким стабильным скором

в кейсе волатильного скора поддерживаю предложение K-S. возможно, волатильность скора вызвана малым числом наблюдений и большой дисперсией y, и возможно это получится побороть снижением числа фолдов, или сменой модели

а то что при шафле получается "одна и та же картина" - это странно. насколько похожая? ровно те же скоры? или примерно такие же? можно покрутить random_state

Количество фолдов подбирал так, чтобы дисперсия между фолдами была минимальная. Примерно похожи скоры, 78-80 колеблются.

источник

00:22пожаловаться #3

NP

Nikolay Pavlenko in Machine learning

Попробую сменить модель на более простую

источник

00:22пожаловаться #4

SS

Sergey Salnikov in Machine learning

эмпирически - минимальная дисперсия при разбиении на 2 фолда, например repeated kfold 5x2. иногда можно получить ещё меньшую дисперсию, если использовать обычный монте-карловский сплит (из серии ShuffleSplit) 10x.1, т.е.10 разбиений по train_size=.1

источник

00:33пожаловаться #5

SS

Sergey Salnikov in Machine learning

(исправил) train_size именно .1, а test_size - оставшиеся 90%

источник

00:34пожаловаться #6

i

igor in Machine learning

Sergey Salnikov

эмпирически - минимальная дисперсия при разбиении на 2 фолда, например repeated kfold 5x2. иногда можно получить ещё меньшую дисперсию, если использовать обычный монте-карловский сплит (из серии ShuffleSplit) 10x.1, т.е.10 разбиений по train_size=.1

это уже какое-то колдунство

источник

00:36пожаловаться #7

SS

Sergey Salnikov in Machine learning

сам удивился, когда построил скаттер для train_size/score

источник

00:37пожаловаться #8

SS

Sergey Salnikov in Machine learning

получился конус

источник

00:37пожаловаться #9

SS

Sergey Salnikov in Machine learning

правда я тренировался на кошках (make_classification)

источник

00:38пожаловаться #10

YS

Yuriy Saraikin in Machine learning

Егор Овчинников

Но ведь по идее мне нужно сложить количество людей из первой группы с количеством второй и отнять 2. Но не указано, сколько людей в группах. Или я что-то не понимаю

Посмотрите формулу m. В ней p - известно, m - известно. Вам нужно из формулы m выразить n при известных m и p.

источник

08:26пожаловаться #11

DP

Dmitry Penzar in Machine learning

Nikolay Pavlenko

Количество фолдов подбирал так, чтобы дисперсия между фолдами была минимальная. Примерно похожи скоры, 78-80 колеблются.

Дисперсия чего?

источник

08:30пожаловаться #12

DP

Dmitry Penzar in Machine learning

Nikolay Pavlenko

Наверное, не совсем ясно сформулировал. Качество на cv значительно хуже чем на тесте и трейне. На тесте и трейне почти одинаковые

Еще один глупый вопрос, а вы кроссвалидацию как делаете? По-умолчанию та, что в питоне, не шафлит ваши примеры.

источник

08:32пожаловаться #13

NP

Nikolay Pavlenko in Machine learning

Dmitry Penzar

Дисперсия чего?

Дисперсия рокауков на кросс-валидации.
Использую StratifiKFold.

источник

08:35пожаловаться #14

DP

Dmitry Penzar in Machine learning

Он тоже по-умолчанию не шафлит

источник

08:36пожаловаться #15

NP

Nikolay Pavlenko in Machine learning

Я шафлю весь трейн перед кросс-валилацией. Хотя возможно в этом и есть проблема. Попробую по-другому, спасибо

источник

08:38пожаловаться #16

DP

Dmitry Penzar in Machine learning

Sergey Salnikov

эмпирически - минимальная дисперсия при разбиении на 2 фолда, например repeated kfold 5x2. иногда можно получить ещё меньшую дисперсию, если использовать обычный монте-карловский сплит (из серии ShuffleSplit) 10x.1, т.е.10 разбиений по train_size=.1

Дисперсию рокауков не надо стремиться уменьшить. Во всяком случае, не так. В статье про 5x2 кроссвалидацию, что вроде бы вы и скидывали, как раз борются с тем, что многие методы преуменьшают дисперсию, ожидаемую в реальности

источник

08:38пожаловаться #17

NP

Nikolay Pavlenko in Machine learning

Dmitry Penzar

Дисперсию рокауков не надо стремиться уменьшить. Во всяком случае, не так. В статье про 5x2 кроссвалидацию, что вроде бы вы и скидывали, как раз борются с тем, что многие методы преуменьшают дисперсию, ожидаемую в реальности

Ага, прочитаю. Спасибо

источник

08:39пожаловаться #18

I

Ivan in Machine learning

Всем привет!
У кого есть возможность, проверьте, пожалуйста, работу

https://www.coursera.org/learn/supervised-learning/peer/bEMBK/linieinaia-rieghriessiia-i-osnovnyie-bibliotieki-python-dlia-analiza-dannykh-i/review/cBiEe2CkEeuqrBIixUucww

#C2W1

Coursera

Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera

Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Specializations, & MOOCs in data science, computer science, business, and dozens of other topics.

источник

09:48пожаловаться #19

ПВ

Помощь Вам in Machine learning

Добрый день! как в pyqt графе х и у имя давать (легенды)? Ну типа х время в миллисекундах и у это сила в 0,01Н

источник

11:10пожаловаться #20