Size: a a a

Machine learning

2020 June 23

ЯШ

Ярик Шаталов... in Machine learning
Кажется это сделано на случай новых категорий
источник

ЯШ

Ярик Шаталов... in Machine learning
Если тебе прилетит новая категория, то ты не потеряешь данные, а она просто пройдёт с уже созданными категориями, как 0 0 0
источник

ЯШ

Ярик Шаталов... in Machine learning
Или вроде того
источник

AG

Andrei Gusev in Machine learning
Dmitry
OneHotEncoder создаёт столько переменных, сколько значений признака? а как же мультиколлинеарность? кажется, должно быть на 1 меньше, т.к. последняя переменная не несёт доп. информации, т.е. если всё нули, то она 1. в этом примере R=0, Y=0 уже означает зеленый. нет?
Вы правы: мультиколлинеарность действительно будет, и для линейных моделей обязательно исключать одну из фич. Не берусь сказать насчет деревьев и производных от них, но, мне кажется, для них это не критично, так как без одной из фич нельзя будет выделить определённый сегмент, например "red", а наличие фичи не должно приводить модель к чему-то ужасному
источник

SD

Ska Doodl in Machine learning
Andrei Gusev
Вы правы: мультиколлинеарность действительно будет, и для линейных моделей обязательно исключать одну из фич. Не берусь сказать насчет деревьев и производных от них, но, мне кажется, для них это не критично, так как без одной из фич нельзя будет выделить определённый сегмент, например "red", а наличие фичи не должно приводить модель к чему-то ужасному
для этого вроде красный должен быть закодирован как 0 0
желтый 1 0
зеленный 0 1
источник

AM

Anastasiia Murashova in Machine learning
Подскажите пожалуйста: я отправила задания по курсу позже того срока, который отпускается на проверку. Как можно создать ссылки на задания для проверки?
источник

АГ

Артём Глазунов... in Machine learning
Andrei Gusev
Вы правы: мультиколлинеарность действительно будет, и для линейных моделей обязательно исключать одну из фич. Не берусь сказать насчет деревьев и производных от них, но, мне кажется, для них это не критично, так как без одной из фич нельзя будет выделить определённый сегмент, например "red", а наличие фичи не должно приводить модель к чему-то ужасному
Данный энкодер не рекомендуют использовать с деревьями и лесами, кстати... Никто не задумывался почему?
источник

AG

Andrei Gusev in Machine learning
Ska Doodl
для этого вроде красный должен быть закодирован как 0 0
желтый 1 0
зеленный 0 1
Да, но у вас не будет отдельной фичи, выделяющей только красный, то есть дерево этот сегмент не увидит
источник

SD

Ska Doodl in Machine learning
Andrei Gusev
Да, но у вас не будет отдельной фичи, выделяющей только красный, то есть дерево этот сегмент не увидит
Да согласен полностью. Данный метод кодирования применим только к линейным моделям, где важно избежать коллинеарность с вектором из единиц
источник

AG

Andrei Gusev in Machine learning
Артём Глазунов
Данный энкодер не рекомендуют использовать с деревьями и лесами, кстати... Никто не задумывался почему?
Если вы наткнетесь на разбор данного вопроса, я был бы очень признателен, если бы вы поделились:)
источник

АГ

Артём Глазунов... in Machine learning
Ska Doodl
Да согласен полностью. Данный метод кодирования применим только к линейным моделям, где важно избежать коллинеарность с вектором из единиц
Почему же, с бустингом очень неплохо у меня работал
источник

SD

Ska Doodl in Machine learning
Артём Глазунов
Почему же, с бустингом очень неплохо у меня работал
Возможно этот признак оказался не важным? Или в у вас только по этим признакам была задача?
источник

АГ

Артём Глазунов... in Machine learning
Я имел в виду классический энкодер preprocessing. OneHorEncoder
источник

АГ

Артём Глазунов... in Machine learning
Там вроде нулями неизвестные категории помечают
источник

AO

Alex Ololo in Machine learning
Артём Глазунов
Данный энкодер не рекомендуют использовать с деревьями и лесами, кстати... Никто не задумывался почему?
думаю, все дело в том что этом метод рожает очень много признаков. что ведет к переобучению в рандом форесте и наоборот в плохом кач*ве в бустинге (так как там строят невысокие деревья)
источник

АГ

Артём Глазунов... in Machine learning
Alex Ololo
думаю, все дело в том что этом метод рожает очень много признаков. что ведет к переобучению в рандом форесте и наоборот в плохом кач*ве в бустинге (так как там строят невысокие деревья)
На бустинге качество хорошее, а рэндом не переобучается вследствие независимости деревьев. В том то и вопрос, почему лес не любит этот энкодер, а бустинг наоборот
источник

K

K-S in Machine learning
Деревья в целом не очень любят ohe из-за того, что каждое отдельное дерево обучается на своём случайно выбранном подмножестве признаков. В итоге может получиться так, что часть ohe признаков будет отобрана для построения n-го дерева, а часть — нет.
источник

АГ

Артём Глазунов... in Machine learning
K-S
Деревья в целом не очень любят ohe из-за того, что каждое отдельное дерево обучается на своём случайно выбранном подмножестве признаков. В итоге может получиться так, что часть ohe признаков будет отобрана для построения n-го дерева, а часть — нет.
Получается, что для обычного дерева он норм, для бустинга тоже. Все дело в подпространствах признаков. Спасибо
источник

АГ

Артём Глазунов... in Machine learning
Получается, категориальные признаки как бы не используются на полную в лесе с ohe, что может быть ужасно для задач на них построенных..
источник

АГ

Артём Глазунов... in Machine learning
Как тот же скорринг и отток
источник