Телеграмм чат группы datasciencechat страница 7169

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Science Chat

5162 membersпожаловаться на группу

2021 November 04

I

Ilya in Data Science Chat

Относительно этого, конечно Фича ваша построенна на основе таргета, который в тесте скрывается. Но поэтому, раз нет валидации (что стоило бы проверить на валидации), то кросс-валидация идеально подойдет для проверки.

источник

11:03пожаловаться #1

D

Dmitry in Data Science Chat

Еще раз попробую проверить, может, где-то я накосячил и поэтому такие результаты.
Просто лично у меня есть сомнения, что такой подход вообще может работать. Хотя с другой стороны это можно расценивать как некое подобия стекинга что ли.

источник

11:05пожаловаться #2

D

Dmitry in Data Science Chat

Спасибо!

источник

11:05пожаловаться #3

I

Ilya in Data Science Chat

А то что среднее по таргету отличается и хорошо разделяет дату это не удивительно. Но та фича которая предсказывает разность по среднему, по идеи и в регрессии должна помогать, если она в игре, то это очевидный максимум который можно выжать.

Другой вопрос, это насколько среднее точно (для теста) , ведь в итоге это всего sample, естественно тест может корректировать средние значения, но у вас то их в реале нет.

источник

11:08пожаловаться #4

I

Ilya in Data Science Chat

Кросс-валидация точно ответит на этот вопрос. Если в кросс-валидации тоже так выйдет, значит плохая идея считать среднее таргетов по части даты.

источник

11:09пожаловаться #5

I

Ilya in Data Science Chat

Помимо того что это в целом типо "утечка".

источник

11:09пожаловаться #6

D

Dmitry in Data Science Chat

Я для входа на модель регрессии генерирую данные из модели классификации через кросс-валидацию на 10-и KFold-ах.

источник

11:09пожаловаться #7

D

Dmitry in Data Science Chat

То есть, регрессор получает предикшены классификатора только на тестах.

источник

11:10пожаловаться #8

I

Ilya in Data Science Chat

Ну вот я и говорю, сделай на трейне. Я думаю будет тоже ухудшение, было бы не очевидным что то другое.

источник

11:10пожаловаться #9

I

Ilya in Data Science Chat

То есть используй не 100% на трейне а 80%, а остальные 20% предсказывай и так каждый раз на другом k-fold-e.

источник

11:12пожаловаться #10

I

Ilya in Data Science Chat

Но вообще теперь видя всю картину, это скорее не правильный подход. Считайте что вы действительно создали ещё один лейбл содержащий максимально близкую информацию к настоящим лейбелам на их же основе, и предиктуете на основе лейбела почти себя же.

источник

11:28пожаловаться #11

I

Ilya in Data Science Chat

Это когда 100%. А когда не 100, считайте что да, просто добавили ошибку на ошибку, двойная классификация одного и того же трагета (по сути) , пусть и первый раз в другом немного виде.

источник

11:33пожаловаться #12

D

Dmitry in Data Science Chat

спасибо!

источник

11:33пожаловаться #13

I

Ilya in Data Science Chat

Make sense?

источник

11:34пожаловаться #14

D

Dmitry in Data Science Chat

я изначально так и подумал, поэтому и написал, чтобы еще мнение со стороны услышать )

источник

11:35пожаловаться #15

D

Dmitry in Data Science Chat

стоит ли вообще на это время тратить, если это не взлетаемое потенциально

источник

11:35пожаловаться #16

A

Alex96 in Data Science Chat

Всем привет, у меня есть датасет на 4,5 млн строк
В них 100к единичек все остальное нули
1 это фрод (плохие пользователи так скажем)
0 обычные юзеры
Чем мне лучше всего решать задачу предсказания плохих пользаков
Думаю закинуть все в catboost так как там много кат.фичей
Но вопрос, как быть с дисбалансом классов, можно ли как-то уравнять их

источник

14:12пожаловаться #17

D

Dmitry in Data Science Chat

привет
попробуй для начала веса скормить тому же катбусту
ну и смотри по метрикам, чтобы моделька не научилась все помечать как обычных юзеров

источник

14:14пожаловаться #18

A

Andrey in Data Science Chat

catboost попробовать вполне себе идея норм. минорному классу можно додать веса, например так
https://catboost.ai/en/docs/concepts/python-usages-examples#weights

источник

15:10пожаловаться #19

RN

Roman Nm in Data Science Chat

Вообще по моей практике катбуст с дисбалансом 1:50 и без весов нормально работает

источник

16:26пожаловаться #20