Size: a a a

Machine learning

2020 June 23

AO

Alex Ololo in Machine learning
все же ни раз натыкался на две мысли.
1. много признаков - плохо для дереьвьев
2. разряженные признаки - плохо для дереьвье
источник

AO

Alex Ololo in Machine learning
one hot это прям 2 в 1
источник

К

Клим in Machine learning
А что хорошо для таких даных?
источник

АГ

Артём Глазунов... in Machine learning
Alex Ololo
все же ни раз натыкался на две мысли.
1. много признаков - плохо для дереьвьев
2. разряженные признаки - плохо для дереьвье
Думаю, первое все же связано со сложность и временем скорее, хотя ohe не всегда много признаков даёт, второе в подпространствах, как я понял теперь...
источник

K

K-S in Machine learning
Артём Глазунов
Получается, категориальные признаки как бы не используются на полную в лесе с ohe, что может быть ужасно для задач на них построенных..
Не так все страшно. Если у вас не гигантское количество категорий, ohe не будет сильно отличаться по качеству от лейбл энкодинга
источник

АГ

Артём Глазунов... in Machine learning
Все зависит от размера подсэмпла, наверное,  нужно его оптимизировать внимательнее тогда
источник

АГ

Артём Глазунов... in Machine learning
Клим
А что хорошо для таких даных?
На категориальных у меня бустинг работал, на множестве разреженных типа bow - линейные алгоритмы с регуляризацией
источник

К

Клим in Machine learning
Мг, ну да, логично, спасибо
источник

АГ

Артём Глазунов... in Machine learning
K-S
Не так все страшно. Если у вас не гигантское количество категорий, ohe не будет сильно отличаться по качеству от лейбл энкодинга
А как лейбл энкодингу привязать handle unknown? Можно свою обертку написать, конечно, но есть ли из коробки?
источник

K

K-S in Machine learning
Артём Глазунов
А как лейбл энкодингу привязать handle unknown? Можно свою обертку написать, конечно, но есть ли из коробки?
Лейбл энкодинг — это ведь обычный словарь. Можно вручную там добавить элемент типа -999: unknown
источник

АГ

Артём Глазунов... in Machine learning
K-S
Лейбл энкодинг — это ведь обычный словарь. Можно вручную там добавить элемент типа -999: unknown
Ясно, спасибо
источник

АГ

Артём Глазунов... in Machine learning
А чем принциально hashing trick крут по сравнению с остальными, за исключение ненужности хранить словарь?
источник

SS

Sergey Salnikov in Machine learning
ohe вообще плохи для деревьев, т.к. они сильно "фонят" при выборе сплита, перетягивая одеяло на себя, и задвигая возможно более важные признаки
источник

K

K-S in Machine learning
Но ведь там всего один возможный сплит
источник

SS

Sergey Salnikov in Machine learning
когда строят очередной узел дерева, выбирается - какой признак используют для сплита. ван-хотовские признаки при этом мешаются под ногами.
источник

AO

Alex Ololo in Machine learning
Sergey Salnikov
когда строят очередной узел дерева, выбирается - какой признак используют для сплита. ван-хотовские признаки при этом мешаются под ногами.
а как он выбирается? тот пи котором меньше энтропия?
источник

K

K-S in Machine learning
Sergey Salnikov
когда строят очередной узел дерева, выбирается - какой признак используют для сплита. ван-хотовские признаки при этом мешаются под ногами.
Ну что значит мешаются. Для дерева это обычный признак и перебрать пороги по ним несильно сложно для деревяшки. Учитывая, что на один бин признак всего один сплит возможен
источник

K

K-S in Machine learning
В общем на практике если у ваших кат фичей не очень большая кардинальность, то лично я особой разницы между лейблэнкодингом и ohe не видел.
источник

SS

Sergey Salnikov in Machine learning
источник

i

igor in Machine learning
Тервер по полочкам)
источник