Телеграмм чат группы datasciencechat страница 7060

Я пытаюсь объяснить, почему R^2 не должен быть 0 в этом случае

15:41пожаловаться #1

Или я не понимаю, что происходит
>А на новых данных, где истинного значения нет, на что множить будешь?
А потом ты говоришь про логарифмирование, обратное преобразование

15:41пожаловаться #2

Потому что формула модели с учетом ошибки eps никак не связана с фактическими вычислениями MSE и всего остального

15:42пожаловаться #3

Я пытаюсь объяснить почему он таки может быть отрицательный
Вот говорю: если есть мнк, то у нас
y=y^+eps
И D(y)=D(y^)+D(eps)
R2=D(y^)/D(y)=1-D(eps)/D(y)
Вот если по второй формуле считать и если МНК проведен неправильно, то, возможно, получится
D(y)=D(y^)+D(eps)+2cov(y^,eps)
А тогда D(y)-D(eps)=D(y^)+2cov(y^,eps)
И наш R2 получится [D(y^)+2cov(y^,eps)]/D(y)

15:46пожаловаться #4

А когда мы логарифмируем таргет, мы получаем другую гиперплоскость, которая не та самая, что даст МНК

15:47пожаловаться #5

Упс, я тоже сумел получить отрицательный R^2

15:50пожаловаться #6

Тут некоторые пункты требуют доказательства, вообще говоря

15:50пожаловаться #7

Но только для сильной линейной связи y и x, тогда логарифмирование действительно все ломает

15:51пожаловаться #8

Ну вероятно достаточно D(y^)<-2cov(...,...)
И ковариации должны быть отрицательны

15:52пожаловаться #9

Короче вердикт

15:53пожаловаться #10

R2 нужно проверять сам линрег в том пространстве, в котором он считался, а при переводе в другие пространства юзать другие метрики

15:54пожаловаться #11

А вы говорите математика не нужна

15:54пожаловаться #12

Николай in Data Science Chat

Огромное спасибо)

15:55пожаловаться #13

Artyom in Data Science Chat

только сейчас задумался- кажется у меня фундаментальное непонимание темы - в задаче регрессии мы модели должны дать значения ровно того же количества фичей, чтобы получить результат или же можно подать меньшее коичество фичей? то есть модель мы например обучали на 10 колонках, а подаем ей всего 5 и хотим получить оценку.

18:42пожаловаться #14

Alex Sam in Data Science Chat

оооо, кажется у меня похожий вопрос

18:45пожаловаться #15

Alex Sam in Data Science Chat

Есть Задача регресии с несколькими выходами. По пяти значениям (x, y, z, x_vel, y_vel) предсказывать 4 другие (alpha, beta, z_vel, delay)
Подскажите какой ml алгоритм/подход здесь уместен?

18:45пожаловаться #16

Andrey in Data Science Chat

(y1, y2, y3) = f(x1, x2, x3, x4, x5), обычно и часто f это отдельные f1, f2, f3, на стартовом уровне. если нейросетки или randomforest какой, то там можно вектор

18:49пожаловаться #17

Roman Nm in Data Science Chat

Ну при обучении можно применять импутинг (замену пропущенных значений), никто не мешает подобные техники применять и при получении предсказаний, вопрос в качестве

18:49пожаловаться #18

Artyom in Data Science Chat

для imputing missing values я знаю много техник- там среднее, медиана, соседнее значение. можно даже отдельно модель обучить, чтобы она заполняла их

19:00пожаловаться #19

Artyom in Data Science Chat

непонятно(