Телеграмм чат группы datasciencecourse страница 3603

2020 June 23

ЯШ

Кажется это сделано на случай новых категорий

ЯШ

Если тебе прилетит новая категория, то ты не потеряешь данные, а она просто пройдёт с уже созданными категориями, как 0 0 0

источник

17:42пожаловаться #2

ЯШ

Ярик Шаталов... in Machine learning

Или вроде того

источник

17:42пожаловаться #3

AG

Andrei Gusev in Machine learning

Dmitry

OneHotEncoder создаёт столько переменных, сколько значений признака? а как же мультиколлинеарность? кажется, должно быть на 1 меньше, т.к. последняя переменная не несёт доп. информации, т.е. если всё нули, то она 1. в этом примере R=0, Y=0 уже означает зеленый. нет?

Вы правы: мультиколлинеарность действительно будет, и для линейных моделей обязательно исключать одну из фич. Не берусь сказать насчет деревьев и производных от них, но, мне кажется, для них это не критично, так как без одной из фич нельзя будет выделить определённый сегмент, например "red", а наличие фичи не должно приводить модель к чему-то ужасному

источник

17:46пожаловаться #4

SD

Ska Doodl in Machine learning

Andrei Gusev

Вы правы: мультиколлинеарность действительно будет, и для линейных моделей обязательно исключать одну из фич. Не берусь сказать насчет деревьев и производных от них, но, мне кажется, для них это не критично, так как без одной из фич нельзя будет выделить определённый сегмент, например "red", а наличие фичи не должно приводить модель к чему-то ужасному

для этого вроде красный должен быть закодирован как 0 0
желтый 1 0
зеленный 0 1

источник

18:17пожаловаться #5

AM

Anastasiia Murashova in Machine learning

Подскажите пожалуйста: я отправила задания по курсу позже того срока, который отпускается на проверку. Как можно создать ссылки на задания для проверки?

источник

18:27пожаловаться #6

АГ

Артём Глазунов... in Machine learning

Andrei Gusev

Вы правы: мультиколлинеарность действительно будет, и для линейных моделей обязательно исключать одну из фич. Не берусь сказать насчет деревьев и производных от них, но, мне кажется, для них это не критично, так как без одной из фич нельзя будет выделить определённый сегмент, например "red", а наличие фичи не должно приводить модель к чему-то ужасному

Данный энкодер не рекомендуют использовать с деревьями и лесами, кстати... Никто не задумывался почему?

источник

19:08пожаловаться #7

AG

Andrei Gusev in Machine learning

Ska Doodl

для этого вроде красный должен быть закодирован как 0 0
желтый 1 0
зеленный 0 1

Да, но у вас не будет отдельной фичи, выделяющей только красный, то есть дерево этот сегмент не увидит

источник

19:13пожаловаться #8

SD

Ska Doodl in Machine learning

Andrei Gusev

Да, но у вас не будет отдельной фичи, выделяющей только красный, то есть дерево этот сегмент не увидит

Да согласен полностью. Данный метод кодирования применим только к линейным моделям, где важно избежать коллинеарность с вектором из единиц

источник

19:14пожаловаться #9

AG

Andrei Gusev in Machine learning

Артём Глазунов

Данный энкодер не рекомендуют использовать с деревьями и лесами, кстати... Никто не задумывался почему?

Если вы наткнетесь на разбор данного вопроса, я был бы очень признателен, если бы вы поделились:)

источник

19:18пожаловаться #10

АГ

Артём Глазунов... in Machine learning

Ska Doodl

Да согласен полностью. Данный метод кодирования применим только к линейным моделям, где важно избежать коллинеарность с вектором из единиц

Почему же, с бустингом очень неплохо у меня работал

источник

19:21пожаловаться #11

SD

Ska Doodl in Machine learning

Артём Глазунов

Почему же, с бустингом очень неплохо у меня работал

Возможно этот признак оказался не важным? Или в у вас только по этим признакам была задача?

источник

19:22пожаловаться #12

АГ

Артём Глазунов... in Machine learning

Я имел в виду классический энкодер preprocessing. OneHorEncoder

источник

19:24пожаловаться #13

АГ

Артём Глазунов... in Machine learning

Там вроде нулями неизвестные категории помечают

источник

19:24пожаловаться #14

AO

Alex Ololo in Machine learning

Артём Глазунов

Данный энкодер не рекомендуют использовать с деревьями и лесами, кстати... Никто не задумывался почему?

думаю, все дело в том что этом метод рожает очень много признаков. что ведет к переобучению в рандом форесте и наоборот в плохом кач*ве в бустинге (так как там строят невысокие деревья)

источник

19:30пожаловаться #15

АГ

Артём Глазунов... in Machine learning

Alex Ololo

думаю, все дело в том что этом метод рожает очень много признаков. что ведет к переобучению в рандом форесте и наоборот в плохом кач*ве в бустинге (так как там строят невысокие деревья)

На бустинге качество хорошее, а рэндом не переобучается вследствие независимости деревьев. В том то и вопрос, почему лес не любит этот энкодер, а бустинг наоборот

источник

19:37пожаловаться #16

K

K-S in Machine learning

Деревья в целом не очень любят ohe из-за того, что каждое отдельное дерево обучается на своём случайно выбранном подмножестве признаков. В итоге может получиться так, что часть ohe признаков будет отобрана для построения n-го дерева, а часть — нет.

источник

19:45пожаловаться #17

АГ

Артём Глазунов... in Machine learning

K-S

Деревья в целом не очень любят ohe из-за того, что каждое отдельное дерево обучается на своём случайно выбранном подмножестве признаков. В итоге может получиться так, что часть ohe признаков будет отобрана для построения n-го дерева, а часть — нет.

Получается, что для обычного дерева он норм, для бустинга тоже. Все дело в подпространствах признаков. Спасибо

источник

19:49пожаловаться #18

АГ

Артём Глазунов... in Machine learning

Получается, категориальные признаки как бы не используются на полную в лесе с ohe, что может быть ужасно для задач на них построенных..

источник

19:51пожаловаться #19

АГ

Артём Глазунов... in Machine learning

Как тот же скорринг и отток

источник

19:51пожаловаться #20