Size: a a a

Machine learning

2020 June 25

I

Ibp in Machine learning
ну в данномслучае if x and x!=y <=> if bool(x)==True and x!=y
источник

I

Ilyas in Machine learning
Ibp
ну говорю надо пробовать: у меня в xgboost такое было: добавлял некоторые новые фичи и качество ухудшалось, добавлял другие - увеличивалось. Все еще зависит от того сколько их там у вас и делали ли вы селекцию признаков по важности
Селекция самим деревом
источник

y

yithian in Machine learning
Osmu
потому что оно ничего не делает
Как это не делает? Оно условие проверяет.
источник

I

Ibp in Machine learning
Ilyas
Селекция самим деревом
не всегда получается эта селекция работает https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself (второй ответ)
источник

K

K-S in Machine learning
Ilyas
Спасибо, пермут, что это?))
Обучили алгоритм на трейне —> сделали предсказания для теста —> измерили качество —> берём первый признак и делаем шаффл значений на тесте —> предсказываем снова нашей моделью для теста —> если качество значимо просело, значит признак был важный. И так проходимся по всем признакам
источник

y

yithian in Machine learning
Я вот думаю, а недостаточно посмотреть на features_importances, которые тот же катбуст выдаёт?
источник

AO

Alex Ololo in Machine learning
Ilyas
Спасибо, пермут, что это?))
np.random.permutation
источник

K

K-S in Machine learning
Честно говоря, не помню, как в катбусте считается эта важность. В лгб/хгб на дефолтную важность (по сплитам) точно смотреть не нужно. Если времени мало и хочется побыстрее хоть какое-то представление о данных получить, то лучше посмотреть на важность по gain’y
источник

y

yithian in Machine learning
Определяет влияние каждой фичи на итоговый прогноз. Я о том, нужно ли для бустинга, и в частности для катбуста, в таком случае прям селекцию фич делать особую?
источник

K

K-S in Machine learning
yithian
Определяет влияние каждой фичи на итоговый прогноз. Я о том, нужно ли для бустинга, и в частности для катбуста, в таком случае прям селекцию фич делать особую?
Через SHAP что ли как-то?
источник

y

yithian in Machine learning
Ну shap это интерпретация тех же features importances, как я понимаю. В смысле, что модель сама может понять от каких фич никакого толка.
источник

I

Ibp in Machine learning
yithian
Определяет влияние каждой фичи на итоговый прогноз. Я о том, нужно ли для бустинга, и в частности для катбуста, в таком случае прям селекцию фич делать особую?
я делал через SelectKBest из sklearn.feature_selection, мне помогло
источник

y

yithian in Machine learning
Или можно, по идее, использовать знание, полученное  таким образом, для отбора фич. Т.е. обучаем модель, смотрим на важность признаков и выкидываем мусор, если хотим упростить модель. Потом обучаем на оставшихся.)
источник

I

Ibp in Machine learning
yithian
Или можно, по идее, использовать знание, полученное  таким образом, для отбора фич. Т.е. обучаем модель, смотрим на важность признаков и выкидываем мусор, если хотим упростить модель. Потом обучаем на оставшихся.)
ну я так и делал
источник

y

yithian in Machine learning
Ibp
ну я так и делал
Ну это же выглядит проще, чем поиск корреляций или выбрасывание фич по одной, нет?
источник

y

yithian in Machine learning
В смысле, почему бы так не делать всегда?)
источник

I

Ibp in Machine learning
yithian
Ну это же выглядит проще, чем поиск корреляций или выбрасывание фич по одной, нет?
да в том то и дело что там не все так просто: если потом к этим отобранным добавлять новые некоторые - результат улучшается, некоторые - ухудшается. А если отбирать из всех, то тоже хуже становилось :)) Пожтому я сначала 160 важных одних определил, а потом новые прибавлял
источник

y

yithian in Machine learning
Ну да понятно, что при изменении изначального признакового пространства всякое может произойти.)
источник

I

Ibp in Machine learning
все же еще зависит, сколько у вас времени есть на работу, поэтому выбрал оптимальный путь
источник

I

Ilyas in Machine learning
K-S
Обучили алгоритм на трейне —> сделали предсказания для теста —> измерили качество —> берём первый признак и делаем шаффл значений на тесте —> предсказываем снова нашей моделью для теста —> если качество значимо просело, значит признак был важный. И так проходимся по всем признакам
Спасибо, селекция отдельная сложная задача оказывается))
источник