OneHotEncoder создаёт столько переменных, сколько значений признака? а как же мультиколлинеарность? кажется, должно быть на 1 меньше, т.к. последняя переменная не несёт доп. информации, т.е. если всё нули, то она 1. в этом примере R=0, Y=0 уже означает зеленый. нет?
Вы правы: мультиколлинеарность действительно будет, и для линейных моделей обязательно исключать одну из фич. Не берусь сказать насчет деревьев и производных от них, но, мне кажется, для них это не критично, так как без одной из фич нельзя будет выделить определённый сегмент, например "red", а наличие фичи не должно приводить модель к чему-то ужасному