Size: a a a

Data Science Chat

2021 October 23

ОН

Олег Новицкий... in Data Science Chat
У меня просто примерно 7 фичей, есть категориальные типа город или уровень зарплаты и есть числовые. Тут логрег или что-то получше можно?
источник

KL

Kir L in Data Science Chat
Эксперимент даст ответ лучше всего, сравни несколько моделей
источник

KL

Kir L in Data Science Chat
Включая бустинг
источник

ОН

Олег Новицкий... in Data Science Chat
Бустинг = XGBoost? Бустинг и логрег - это основные?
источник

--

-- -- in Data Science Chat
начните с логит или пробит регрессии, они просто тупо везде реализованы в 2-3 клика (3-4 команды)
источник

ОН

Олег Новицкий... in Data Science Chat
Дальше XGBoost пробовать?
источник

--

-- -- in Data Science Chat
может вам логит и хватит :)
источник

ОН

Олег Новицкий... in Data Science Chat
Спасибо большое, а категориальные словесные(название города) и порядковые (уровень зарплаты: 1,2,3) стоит разбить через one hot encoding?
источник

--

-- -- in Data Science Chat
я бы GLZ попробовал в таком случае
источник

ОН

Олег Новицкий... in Data Science Chat
А что такое GLZ, что за аббревиатура. Извините, не опытный
источник

--

-- -- in Data Science Chat
генерализованные модели, логит - частный случай. Грубо говоря это линейная (обобщенная множественная регрессия), только на y накладывается некая функция связи (линк функция) она делает линеаризацию.
источник

--

-- -- in Data Science Chat
Для бинарных признаков как раз идет логит кривая
источник

--

-- -- in Data Science Chat
По поводу кодов, если академично, до да, надо бы, но ... в принципе можно оставить кодировку по меткам, т.е. не разбивать один столбец (город => 1, 2, 3 на три город1, город2 и город 3)
источник

ОН

Олег Новицкий... in Data Science Chat
Спасибо очень полезно. Пойду спать, а потом пробовать.
источник

ОН

Олег Новицкий... in Data Science Chat
Получается, если просто слова в числа перекодировать, то тоже нормально будет
источник

--

-- -- in Data Science Chat
еще можно сначала поискать главные компоненты
источник

--

-- -- in Data Science Chat
сделать факторизацию :)
источник

ОН

Олег Новицкий... in Data Science Chat
На 7 признаках есть смысл понижать размерность?
источник

--

-- -- in Data Science Chat
а чего бы и нет?
источник

--

-- -- in Data Science Chat
может что-то выплывет
источник