Size: a a a

Data Science Chat

2021 November 04

I

Ilya in Data Science Chat
Относительно этого, конечно Фича ваша построенна на основе таргета, который в тесте скрывается. Но поэтому, раз нет валидации (что стоило бы проверить на валидации), то кросс-валидация идеально подойдет для проверки.
источник

D

Dmitry in Data Science Chat
Еще раз попробую проверить, может, где-то я накосячил и поэтому такие результаты.
Просто лично у меня есть сомнения, что такой подход вообще может работать. Хотя с другой стороны это можно расценивать как некое подобия стекинга что ли.
источник

D

Dmitry in Data Science Chat
Спасибо!
источник

I

Ilya in Data Science Chat
А то что среднее по таргету отличается и хорошо разделяет дату это не удивительно. Но та фича которая предсказывает разность по среднему, по идеи и в регрессии должна помогать, если она в игре, то это очевидный максимум который можно выжать.

Другой вопрос, это насколько среднее точно (для теста) , ведь в итоге это всего sample, естественно тест может корректировать средние значения, но у вас то их в реале нет.
источник

I

Ilya in Data Science Chat
Кросс-валидация точно ответит на этот вопрос. Если в кросс-валидации тоже так выйдет, значит плохая идея считать среднее таргетов по части даты.
источник

I

Ilya in Data Science Chat
Помимо того что это в целом типо "утечка".
источник

D

Dmitry in Data Science Chat
Я для входа на модель регрессии генерирую данные из модели классификации через кросс-валидацию на 10-и KFold-ах.
источник

D

Dmitry in Data Science Chat
То есть, регрессор получает предикшены классификатора только на тестах.
источник

I

Ilya in Data Science Chat
Ну вот я и говорю, сделай на трейне. Я думаю будет тоже ухудшение, было бы не очевидным что то другое.
источник

I

Ilya in Data Science Chat
То есть используй не 100% на трейне а 80%, а остальные 20% предсказывай и так каждый раз на другом k-fold-e.
источник

I

Ilya in Data Science Chat
Но вообще теперь видя всю картину, это скорее не правильный подход. Считайте что вы действительно создали ещё один лейбл содержащий максимально близкую информацию к настоящим лейбелам на их же основе, и предиктуете на основе лейбела почти себя же.
источник

I

Ilya in Data Science Chat
Это когда 100%. А когда не 100, считайте что да, просто добавили ошибку на ошибку, двойная классификация одного и того же трагета (по сути) , пусть и первый раз в другом немного виде.
источник

D

Dmitry in Data Science Chat
спасибо!
источник

I

Ilya in Data Science Chat
Make sense?
источник

D

Dmitry in Data Science Chat
я изначально так и подумал, поэтому и написал, чтобы еще мнение со стороны услышать )
источник

D

Dmitry in Data Science Chat
стоит ли вообще на это время тратить, если это не взлетаемое потенциально
источник

A

Alex96 in Data Science Chat
Всем привет, у меня есть датасет на 4,5 млн строк
В них 100к единичек все остальное нули
1 это фрод (плохие пользователи так скажем)
0  обычные юзеры
Чем мне лучше всего решать задачу предсказания плохих пользаков
Думаю закинуть все в catboost так как там много кат.фичей
Но вопрос, как быть с дисбалансом классов, можно ли как-то уравнять их
источник

D

Dmitry in Data Science Chat
привет
попробуй для начала веса скормить тому же катбусту
ну и смотри по метрикам, чтобы моделька не научилась все помечать как обычных юзеров
источник

A

Andrey in Data Science Chat
catboost попробовать вполне себе идея норм. минорному классу можно додать веса, например так
https://catboost.ai/en/docs/concepts/python-usages-examples#weights
источник

RN

Roman Nm in Data Science Chat
Вообще по моей практике катбуст с дисбалансом 1:50 и без весов нормально работает
источник