Size: a a a

Machine learning

2021 February 14

A

Aleksey in Machine learning
Добрый день.
Вопрос: При снижении размерности как быть с бинарными признаками, с ними тоже приводить стандартизацию для снижения размерности или добавлять их в виде 0/1 после стандартизации ? Или мб есть пример и как правильно ?
источник

I

Ibp in Machine learning
Егор Овчинников
Спасибо!
Я в данном вопросе больше интересуюсь общим пониманием. Не только в ключе того сета. Хочу понять, РАЗ И НАВСЕГДА, просто последовательность применения подобных методов. Я так понимаю ты просто после обучения модели смотрел feature_importances? И признаки с самыми низкими значениями удалял?
есть такой подход, если мы говорим о моделях. у которых есть атрибут coef_ или feature_importances_, как в xgboost - SelectFromModel sklern. допустим, у вас есть 62 признака значимых, вы их сортируете по значимости и начинаете с помощью этого прибамбаса удалять по одному признаку и смотреть что получится, как в примере. В итоге вы увидите минимальтное количество признаков, которое можно оставить без понижения скора
источник

I

Ibp in Machine learning
и там, касательно xgboost, есть два вида важности признаков. по умолчанию оно показывает, как в графике plot_importance важности важные с точки зрения регрессии. их можно выудить следующим способом:
источник

I

Ibp in Machine learning
а есть еще важности для классификации, они получаются следующим способом:
источник

I

Ibp in Machine learning
или тоже самое взвешенное:
источник

ЕО

Егор Овчинников... in Machine learning
Ibp
есть такой подход, если мы говорим о моделях. у которых есть атрибут coef_ или feature_importances_, как в xgboost - SelectFromModel sklern. допустим, у вас есть 62 признака значимых, вы их сортируете по значимости и начинаете с помощью этого прибамбаса удалять по одному признаку и смотреть что получится, как в примере. В итоге вы увидите минимальтное количество признаков, которое можно оставить без понижения скора
Гуд! Спасибо!!!!!!!!!
источник

ЕО

Егор Овчинников... in Machine learning
igor
Есть хорошая книга feature selection max kuhn
Скачал!👍🏻
источник

ЕО

Егор Овчинников... in Machine learning
Спасибо!
источник

AP

Alexander Petrenko in Machine learning
Егор Овчинников
Спасибо!
Я в данном вопросе больше интересуюсь общим пониманием. Не только в ключе того сета. Хочу понять, РАЗ И НАВСЕГДА, просто последовательность применения подобных методов. Я так понимаю ты просто после обучения модели смотрел feature_importances? И признаки с самыми низкими значениями удалял?
Что-то типа features_importances. Точно не помню как называется. Комп не под рукой. Помню там было два способа вызова информации о значимости признаков. Могу в личку ссылку скинуть на гитхаб свой с этим датасетом. Надо?:)
источник

ЕО

Егор Овчинников... in Machine learning
Супер! Буду рад!
источник

i

igor in Machine learning
Обратите внимание в книге все детално разбирается
источник

i

igor in Machine learning
источник

AP

Alexander Petrenko in Machine learning
👍
источник

ЕО

Егор Овчинников... in Machine learning
Может надо кому-нибудь....
источник

A

An in Machine learning
юзайте пермутейшн импортанс и shap
источник

ЕО

Егор Овчинников... in Machine learning
🤔Интересно) Ответьте. Вы сейчас работаете дата сайнтистом?
Анонимный опрос
14%
Да
86%
Нет
Проголосовало: 133
источник

DP

Dmitry Penzar in Machine learning
Егор Овчинников
Супер! Буду рад!
В том, что скинул esperanto особое внимание оьратите на overfitting to predictors
источник

DP

Dmitry Penzar in Machine learning
Если коротко - фичи - это фактически гиперпараметры модели. И выбирать их надо как гиперпараметры
источник

DP

Dmitry Penzar in Machine learning
Иначе можете проделать простой эксперимент

Генерим случайно вектор Y из 0 и 1 размера n. И матрицу X размера nxm, тоже из 0 и 1. m - это признаки.
Можете легко набрать "значимых признаков", если не будете кроссвалидироваться
источник

ЕО

Егор Овчинников... in Machine learning
👍🏻
источник