Size: a a a

Data Science Chat

2021 September 14

A

Andrey in Data Science Chat
Я пытаюсь объяснить, почему R^2 не должен быть 0 в этом случае
источник

S

Somebody in Data Science Chat
Или я не понимаю, что происходит
>А на новых данных, где истинного значения нет, на что множить будешь?
А потом ты говоришь про логарифмирование, обратное преобразование
источник

A

Andrey in Data Science Chat
Потому что формула модели с учетом ошибки eps никак не связана с фактическими вычислениями MSE и всего остального
источник

S

Somebody in Data Science Chat
Я пытаюсь объяснить почему он таки может быть отрицательный
Вот говорю: если есть мнк, то у нас
y=y^+eps
И D(y)=D(y^)+D(eps)
R2=D(y^)/D(y)=1-D(eps)/D(y)
Вот если по второй формуле считать и если МНК проведен неправильно, то, возможно, получится
D(y)=D(y^)+D(eps)+2cov(y^,eps)
А тогда D(y)-D(eps)=D(y^)+2cov(y^,eps)
И наш R2 получится [D(y^)+2cov(y^,eps)]/D(y)
источник

S

Somebody in Data Science Chat
А когда мы логарифмируем таргет, мы получаем другую гиперплоскость, которая не та самая, что даст МНК
источник

A

Andrey in Data Science Chat
Упс, я тоже сумел получить отрицательный R^2
источник

S

Somebody in Data Science Chat
Тут некоторые пункты требуют доказательства, вообще говоря
источник

A

Andrey in Data Science Chat
Но только для сильной линейной связи y и x, тогда логарифмирование действительно все ломает
источник

S

Somebody in Data Science Chat
Ну вероятно достаточно D(y^)<-2cov(...,...)
И ковариации должны быть отрицательны
источник

S

Somebody in Data Science Chat
Короче вердикт
источник

S

Somebody in Data Science Chat
R2 нужно проверять сам линрег в том пространстве, в котором он считался, а при переводе в другие пространства юзать другие метрики
источник

S

Somebody in Data Science Chat
А вы говорите математика не нужна
источник

Н

Николай in Data Science Chat
Огромное спасибо)
источник

A

Artyom in Data Science Chat
только сейчас задумался- кажется у меня фундаментальное непонимание темы - в задаче регрессии мы модели должны дать значения ровно  того же количества фичей, чтобы получить результат или же можно подать меньшее коичество фичей? то есть модель мы например обучали на 10 колонках, а подаем ей всего 5 и хотим получить оценку.
источник

AS

Alex Sam in Data Science Chat
оооо, кажется у меня похожий вопрос
источник

AS

Alex Sam in Data Science Chat
Есть Задача регресии с несколькими выходами. По пяти значениям (x, y, z, x_vel, y_vel) предсказывать 4 другие (alpha, beta, z_vel, delay)
Подскажите какой ml алгоритм/подход здесь уместен?
источник

A

Andrey in Data Science Chat
(y1, y2, y3) = f(x1, x2, x3, x4, x5), обычно и часто f это отдельные f1, f2, f3, на стартовом уровне. если нейросетки или randomforest какой, то там можно вектор
источник

RN

Roman Nm in Data Science Chat
Ну при обучении можно применять импутинг (замену пропущенных значений), никто не мешает подобные техники применять и при получении предсказаний, вопрос в качестве
источник

A

Artyom in Data Science Chat
для imputing missing values  я знаю много техник- там среднее, медиана, соседнее значение. можно даже отдельно модель обучить, чтобы она заполняла их
источник

A

Artyom in Data Science Chat
непонятно(
источник