Size: a a a

Data Science Chat

2021 October 23

NC

Nikita Chepurenko in Data Science Chat
А еще возможно, я могу ошибаться, может быть вам не надо сравнивать тип с bytes, но я лично так вижу это
источник

АА

Абстрактный Аутист... in Data Science Chat
Спасибо большое!
источник

NC

Nikita Chepurenko in Data Science Chat
Не за что, надеюсь это помогло
источник

АА

Абстрактный Аутист... in Data Science Chat
с одной стороны попыталось скомпилиться, с другой ошибку выдает
источник

NC

Nikita Chepurenko in Data Science Chat
что за ошибка?
источник

АА

Абстрактный Аутист... in Data Science Chat
да она не к этому относится, а к тому, что я дебил
источник

АА

Абстрактный Аутист... in Data Science Chat
Поэтому еще раз спасибо)
источник

s

sasha in Data Science Chat
ну очевидно попробуйте вытянуть фичи из него площадь колво комнат и тд
источник

NC

Nikita Chepurenko in Data Science Chat
👍
источник

DA

Daniil Agniashvili in Data Science Chat
окц
источник

ОН

Олег Новицкий... in Data Science Chat
Если я кодирую категориальные признаки в числовые, то лучше ноль не использовать и лучше подряд идущие числа, чем случайные?
источник

ДС

Дмитрий Симаков... in Data Science Chat
Смотря что за модель. Случайные могут случайно оказаться лучше.
источник

RN

Roman Nm in Data Science Chat
Ну то есть, в деревянных моделях важен только порядок, а в линейных надо пробовать. Использовать ноль или нет - пофигу  даже в линейных моделях: минимальное значение даёт всем моделям одинаковую прибавку
источник

ОН

Олег Новицкий... in Data Science Chat
Сори за спам.
если у меня задача бинарной классификации. Признаки у меня все категориальные. Признаков 7, при OneHotEncoding'e я получил 48 признаков, записей у меня ~5000 тысяч. Какой алгоритм мне лучше использовать? Подойдёт ли лог рег или XGBoost, может что-то ещё? Ещё стоит ли мне понижать размерность на разбитых фичах? И стоит ли мне удалять признаки, у которых распределение таргета близко к 50 на 50?
источник

DS

Denis Stadnik in Data Science Chat
А почему потестить не хочешь?
источник

ОН

Олег Новицкий... in Data Science Chat
уже
источник

ОН

Олег Новицкий... in Data Science Chat
xgboost лучше на 0,08
источник

ДС

Дмитрий Симаков... in Data Science Chat
А если ты возьмёшь lightgbm… А если не будешь кодировать категории OHE. А может потом запустишь какой-нибудь автомл…
источник

DS

Denis Stadnik in Data Science Chat
Какой датасет мучаешь?
источник

ОН

Олег Новицкий... in Data Science Chat
да там решаю контест
источник