Size: a a a

Data Science Chat

2021 November 04

D

Dmitry in Data Science Chat
это на закуску :)
источник

D

Dmitry in Data Science Chat
источник

SK

Sergey Kolchenko in Data Science Chat
Какой то странный график. Что по x, что по y?
источник

I

Ilya in Data Science Chat
попробуйте, чего гадать. Посмотрите на регрессию с добавленным "лейбелом", как вы назвали, хотя я бы обозначил это как дополнительную фичу на основе того, что вы описали про зависимую переменную, которая насколько я понимаю, выводится в результате некоторого фичер инжиниринга, назовем это так.
Не зная подробности того, что вы делаете, это единственное что можно сказать.
источник

I

Ilya in Data Science Chat
Если эта "фича" действительно показывает о некоторой раздробленности даты по определенному критерию, то возможно и да, поможет регрессии. То есть хорошо съинжинированна, если результат без лучше, значит думайте почему не соотвествует вашей интуиции, если на то пошло.
источник

I

Ilya in Data Science Chat
хотя с какой стати она выбрасывается, если вам кажется что она полезная, то это вопрос к вам, либо почему она выбрасывается, либо почему вам кажется что она полезная, если она добавляет такое разделение даты.
источник

I

Ilya in Data Science Chat
а что без нее, подобного разделения вообще не видно ?
(тут и правда интересно посмотреть на кластеризацию с ней и без нее)
источник

SK

Sergey Kolchenko in Data Science Chat
если на тесте этой фичи не будет, то добаавлять ее в трейн странно
источник

I

Ilya in Data Science Chat
ну он на тесте также сделает, вычислит дополнительную фичу, и вместе с ней попробует регрессию.
Хотя и на счет ошибки возможно, что оно только испортит.
источник

I

Ilya in Data Science Chat
вообще это конечно БДСМ-ный метод проверить полезность выбрасываемой фичи, я бы сделал для начала кросс валидация только на трейне, насколько вообще эта фича полезна (если в тесте ее совсем нет, а она не выбрасывается)
источник

I

Ilya in Data Science Chat
а потом, если ее какой то дурак просто не взял и выкинул из теста, подумал, а может правда стоит ее предсказать на основе информации в тесте, с предположением, что тест и трейн из того же распределения.
источник

I

Ilya in Data Science Chat
может правда окажется полезной "информацией". А может нет
источник

I

Ilya in Data Science Chat
хотя почему она есть в трейне и нет в тесте, это тоже странно
источник

I

Ilya in Data Science Chat
может вообще фичи плохо выбирались и выбрасывались хз
источник

I

Ilya in Data Science Chat
но в целом согласен с вами, что крайне мало информации и описание процесса, "все возможно".
источник

D

Dmitry in Data Science Chat
Если я сгенерированную фичу добавляю со 100% тру классами (как если бы классификатор был точен на 100%), то результаты регрессии улучшаются очень существенно. Что и понятно, т.к. по сути это протечка.  Классификатор на тесте даёт 86% точности. Но если я добавляю предикшены классификатора в модель регрессии, то это ухудшает модель, а не улучшает ее. С 86% точности я ожидал, что как минимум это не улучшит модель, но точно не сделает ее хуже. Пытаюсь понять, сделал ли я где-то ошибку и поэтому такой результат или моделька классификации добавляет в модель регрессии свою ошибку и такой способ в принципе не рабочий.
источник

D

Dmitry in Data Science Chat
y — самая важная фича в датасете
x — таргет
источник

I

Ilya in Data Science Chat
У вас этой фичи по какой причине нет в тесте совсем, и почему она в трейне есть, у вас разные трейн и тест? Отложим в сторонке пока классификатор для её предикции в тесте.
источник

D

Dmitry in Data Science Chat
Таргет — общая сумму заказа клиента.
Фича — усредненная цена за единицу товара в заказе, которая считается по таргету и другой фиче, которая есть в датасете.
Идея в том, чтобы разбить датасет по средней цене за заказ на группы, а затем предварительно эти группы предсказывать классификатором, чтобы помочь регрессору.
источник

I

Ilya in Data Science Chat
Сделайте кросс валидация с классификатором только на трейне чтобы проверить ошибку (не 100% как вы написали). Она должна появится и там.
источник