Size: a a a

Python для анализа данных

2019 July 19

АМ

Алексей Макаров... in Python для анализа данных
Yuriy Prudnikov
Приветствую всех. Задача довольно банальная:
Есть таблица вида
id    value
1     1
1     2
1     3
2     1
2     2

Нужен отдельный столбец, в котором будет храниться максимальное значение для value по каждому id
id    value   max_value
1     1            3
1     2            3
1     3            3
2     1            2
2     2            2

Не могу придумать ничего лучше, чем
df = df.merge(df.groupby('id').max()['value'].reset_index(), how='left', on='id')

Есть ли более элегантный способ добиться такого результата?
df['max_value'] = df['value'].groupby(df['id']).transform('max')
источник

YP

Yuriy Prudnikov in Python для анализа данных
Алексей Макаров
df['max_value'] = df['value'].groupby(df['id']).transform('max')
Спасибо, так гораздо проще)
источник

UL

Uladzislau Lukashou in Python для анализа данных
Может быть оффтоп конечно, но кто строил пайплайны на Luigi? Можете порекомендовать лучшие материалы по изучению
источник

dd

dgj dfsh in Python для анализа данных
источник

UL

Uladzislau Lukashou in Python для анализа данных
Я вот думал про префект, но там же какой-то Клауд, а у меня только свой сервер
источник

UL

Uladzislau Lukashou in Python для анализа данных
Если б была возможность префект даги на своем серваке поднимать то конечно
источник
2019 July 20

OA

Oleg Agapov in Python для анализа данных
Пробуйте dagster для пайплайнов. Тут уже упоминался, клёвая штука
источник

OA

Oleg Agapov in Python для анализа данных
источник

OA

Oleg Agapov in Python для анализа данных
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Привет, скажите, пж, как заменить символ в во всех рядках столбца?
На входе:
clientid
468464_4664646
164646_4648464
На выходе:
clientid
468464.4664646
164646.4648464
источник

АМ

Алексей Макаров... in Python для анализа данных
str.replace в pandas
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
спасибо
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
df['clientid'].str.replace("_", ".")
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
правда, медленный способ в плане скорости обработки
источник
2019 July 21

UL

Uladzislau Lukashou in Python для анализа данных
Oleg Agapov
Пробуйте dagster для пайплайнов. Тут уже упоминался, клёвая штука
Спасибо за наводку, а получилось ли хоть у кого запустить веб юай этот dagit?

А то чёт вообще никак
источник

OA

Oleg Agapov in Python для анализа данных
Получилось. Но там какой-то баг с hello-world примером, не хватает конфигов. Прочитай весь юзер-гайд, станет понятно как его запускать
источник

R

Rinat in Python для анализа данных
Всем привет! Подскажите, пж, как можно заполнить пропущенные даты в колонке?
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Rinat
Всем привет! Подскажите, пж, как можно заполнить пропущенные даты в колонке?
а где тут пропущенные?
источник

R

Rinat in Python для анализа данных
в колонке paymentdate, не хватает 2017-01-04, 2017-01-06, 2017-01-08
источник

YP

Yuriy Prudnikov in Python для анализа данных
Rinat
в колонке paymentdate, не хватает 2017-01-04, 2017-01-06, 2017-01-08
А что должно быть в installdate? То же, что и в предыдущей ближайшей строке? Или вообще всегда одно и то же?
источник