Телеграмм чат группы mlbootcamp страница 13336

Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю

вроде это и без transform работать должно, а transform сильно усложняет вычисления

источник

15:56пожаловаться #4

DR

Dmitry Raevsky in ML Boot Camp Official

K-S

Господа-питонисты, а не подскажете, как ускорить на питоне следующую строчку кода:

df[‘new_var’] = df.groupby(‘id’)[‘var1’].transform(lambda x: x.rolling(window=100).mean())

Задача - считать скользящее среднее внутри каждого уникального значения переменной ‘id’

Заранее благодарю

в смысле groupby.rolling(...) возвращает весь датафрейм

источник

15:59пожаловаться #5

ДС

Дмитрий Симаков in ML Boot Camp Official

K-S

Шта? Они не додумались просто прописать путь к файлам? И этот «косяк» после двух недель проверки? П**дец, я умываю руки. Чтоб ещё раз я когда-нибудь там участвовал

Наш код они пытаются запустить на колабе, перепихав все импорты. И что-то у них тоже не работает.

источник

16:34пожаловаться #6

om

obuch metod in ML Boot Camp Official

А Бут, кажется, лёнинг

источник

16:35пожаловаться #7

K

K-S in ML Boot Camp Official

Дмитрий Симаков

Наш код они пытаются запустить на колабе, перепихав все импорты. И что-то у них тоже не работает.

Я им даже предлагал просто расшарить с ними ноутбуки, но они отказались

источник

16:37пожаловаться #8

K

K-S in ML Boot Camp Official

Мне интереснее, что все эти «косяки» начали вылазить после финализации лидерборда. Чем они там две с половиной недели занимались?

источник

16:38пожаловаться #9

JS

Jury Sergeev in ML Boot Camp Official

слушайте, о великомудрые повелители нейронок (и нейронов), в случае деревянной регрессионной модели можно построить доверительный интервал для предсказания? можете толкнуть в сторону нужного направления? это, случайно, не мин. и макс. величины целевой переменной в конкретном листе для наблюдения, на котором делаем предикт?

источник

18:52пожаловаться #10

JS

Jury Sergeev in ML Boot Camp Official

ну в смысле не мин и макс, а 0.025 и 0.975 перцентили

источник

18:52пожаловаться #11

ST

Serhii Tiurin in ML Boot Camp Official

Jury Sergeev

слушайте, о великомудрые повелители нейронок (и нейронов), в случае деревянной регрессионной модели можно построить доверительный интервал для предсказания? можете толкнуть в сторону нужного направления? это, случайно, не мин. и макс. величины целевой переменной в конкретном листе для наблюдения, на котором делаем предикт?

можно с помощью бутстрепных выборок, на каждой строишь модель и получаешь ряд, откуда берешь интервал нужный

источник

18:53пожаловаться #12

JS

Jury Sergeev in ML Boot Camp Official

ага, то есть процедура такая - подобрали гиперпараметры, далее генерим бутстрепом выборки и с теми же параметрами строим модель по полной бутстреп-выборке, повторяем для каждой, и из предиктов получаем доверительный интервал, так?

источник

18:54пожаловаться #13

JS

Jury Sergeev in ML Boot Camp Official

Serhii Tiurin

можно с помощью бутстрепных выборок, на каждой строишь модель и получаешь ряд, откуда берешь интервал нужный

благодарствую за науку!

источник

18:55пожаловаться #14

ST

Serhii Tiurin in ML Boot Camp Official

Jury Sergeev

ага, то есть процедура такая - подобрали гиперпараметры, далее генерим бутстрепом выборки и с теми же параметрами строим модель по полной бутстреп-выборке, повторяем для каждой, и из предиктов получаем доверительный интервал, так?

ага

источник

18:55пожаловаться #15

JS

Jury Sergeev in ML Boot Camp Official

ты же обещал нейронки постить?

источник

18:56пожаловаться #16

ДС

Дмитрий Симаков in ML Boot Camp Official

Если нужно для тестовой выборки построить интервалы, то можно использовать что-то в духе RepeatedKFold. А дальше уже квантили считать для каждой точки. Но это дорого, надо фитить много моделей (сколько достаточно, 100?). Проще доверительный интервал строить для метрики - считать скоры на бутстрапированной выборке предсказаний и таргета.

источник

18:58пожаловаться #17

om

obuch metod in ML Boot Camp Official

Jury Sergeev

ты же обещал нейронки постить?

Да, но
Мы не ищем лёгких путей 😞

источник

18:58пожаловаться #18

K

K-S in ML Boot Camp Official

Jury Sergeev

слушайте, о великомудрые повелители нейронок (и нейронов), в случае деревянной регрессионной модели можно построить доверительный интервал для предсказания? можете толкнуть в сторону нужного направления? это, случайно, не мин. и макс. величины целевой переменной в конкретном листе для наблюдения, на котором делаем предикт?

Видел ещё примеры использования нескольких квантильных регрессий для этой цели

источник

18:58пожаловаться #19

JS

Jury Sergeev in ML Boot Camp Official

Дмитрий Симаков

Если нужно для тестовой выборки построить интервалы, то можно использовать что-то в духе RepeatedKFold. А дальше уже квантили считать для каждой точки. Но это дорого, надо фитить много моделей (сколько достаточно, 100?). Проще доверительный интервал строить для метрики - считать скоры на бутстрапированной выборке предсказаний и таргета.

туплю и стыжусь, но спрошу - это значит берем тест, генерим из него бутстрепом кучу выборок и предиктим, и потом дов. интервал для метрики (допустим rmse), и уже от нее - можно сделать разброс конкретного предсказания, так? мозг говорит что я не так все понял

источник

19:01пожаловаться #20