Телеграмм чат группы datasciencecourse страница 3616

2020 June 25

I

Ibp in Machine learning

ну в данномслучае if x and x!=y <=> if bool(x)==True and x!=y

источник

10:35пожаловаться #1

I

Ilyas in Machine learning

Ibp

ну говорю надо пробовать: у меня в xgboost такое было: добавлял некоторые новые фичи и качество ухудшалось, добавлял другие - увеличивалось. Все еще зависит от того сколько их там у вас и делали ли вы селекцию признаков по важности

Селекция самим деревом

источник

10:35пожаловаться #2

y

yithian in Machine learning

Osmu

потому что оно ничего не делает

Как это не делает? Оно условие проверяет.

источник

10:36пожаловаться #3

I

Ibp in Machine learning

Ilyas

Селекция самим деревом

не всегда получается эта селекция работает https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself (второй ответ)

Data Science Stack Exchange

Does XGBoost handle multicollinearity by itself?

I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redunda...

источник

10:37пожаловаться #4

K

K-S in Machine learning

Ilyas

Спасибо, пермут, что это?))

Обучили алгоритм на трейне —> сделали предсказания для теста —> измерили качество —> берём первый признак и делаем шаффл значений на тесте —> предсказываем снова нашей моделью для теста —> если качество значимо просело, значит признак был важный. И так проходимся по всем признакам

источник

10:41пожаловаться #5

y

yithian in Machine learning

Я вот думаю, а недостаточно посмотреть на features_importances, которые тот же катбуст выдаёт?

источник

10:43пожаловаться #6

AO

Alex Ololo in Machine learning

Ilyas

Спасибо, пермут, что это?))

np.random.permutation

источник

10:44пожаловаться #7

K

K-S in Machine learning

Честно говоря, не помню, как в катбусте считается эта важность. В лгб/хгб на дефолтную важность (по сплитам) точно смотреть не нужно. Если времени мало и хочется побыстрее хоть какое-то представление о данных получить, то лучше посмотреть на важность по gain’y

источник

10:45пожаловаться #8

y

yithian in Machine learning

Определяет влияние каждой фичи на итоговый прогноз. Я о том, нужно ли для бустинга, и в частности для катбуста, в таком случае прям селекцию фич делать особую?

источник

10:48пожаловаться #9

K

K-S in Machine learning

yithian

Определяет влияние каждой фичи на итоговый прогноз. Я о том, нужно ли для бустинга, и в частности для катбуста, в таком случае прям селекцию фич делать особую?

Через SHAP что ли как-то?

источник

10:49пожаловаться #10

y

yithian in Machine learning

Ну shap это интерпретация тех же features importances, как я понимаю. В смысле, что модель сама может понять от каких фич никакого толка.

источник

10:51пожаловаться #11

I

Ibp in Machine learning

yithian

Определяет влияние каждой фичи на итоговый прогноз. Я о том, нужно ли для бустинга, и в частности для катбуста, в таком случае прям селекцию фич делать особую?

я делал через SelectKBest из sklearn.feature_selection, мне помогло

источник

10:52пожаловаться #12

y

yithian in Machine learning

Или можно, по идее, использовать знание, полученное таким образом, для отбора фич. Т.е. обучаем модель, смотрим на важность признаков и выкидываем мусор, если хотим упростить модель. Потом обучаем на оставшихся.)

источник

10:53пожаловаться #13

I

Ibp in Machine learning

yithian

Или можно, по идее, использовать знание, полученное таким образом, для отбора фич. Т.е. обучаем модель, смотрим на важность признаков и выкидываем мусор, если хотим упростить модель. Потом обучаем на оставшихся.)

ну я так и делал

источник

10:54пожаловаться #14

y

yithian in Machine learning

Ibp

ну я так и делал

Ну это же выглядит проще, чем поиск корреляций или выбрасывание фич по одной, нет?

источник

10:55пожаловаться #15

y

yithian in Machine learning

В смысле, почему бы так не делать всегда?)

источник

10:56пожаловаться #16

I

Ibp in Machine learning

yithian

Ну это же выглядит проще, чем поиск корреляций или выбрасывание фич по одной, нет?

да в том то и дело что там не все так просто: если потом к этим отобранным добавлять новые некоторые - результат улучшается, некоторые - ухудшается. А если отбирать из всех, то тоже хуже становилось :)) Пожтому я сначала 160 важных одних определил, а потом новые прибавлял

источник

10:57пожаловаться #17

y

yithian in Machine learning

Ну да понятно, что при изменении изначального признакового пространства всякое может произойти.)

источник

10:59пожаловаться #18

I

Ibp in Machine learning

все же еще зависит, сколько у вас времени есть на работу, поэтому выбрал оптимальный путь

источник

10:59пожаловаться #19

I

Ilyas in Machine learning

K-S

Обучили алгоритм на трейне —> сделали предсказания для теста —> измерили качество —> берём первый признак и делаем шаффл значений на тесте —> предсказываем снова нашей моделью для теста —> если качество значимо просело, значит признак был важный. И так проходимся по всем признакам

Спасибо, селекция отдельная сложная задача оказывается))

источник

11:14пожаловаться #20