Телеграмм чат группы pydata

13:56пожаловаться #1

2019 March 22

AK

Добрый день, подскажите как можно заполнить отсутсвующие (или нулевые) значение в столбце в датафрейме предыдущим значением, но при условие, что id предыдущей строки совпадает с id текущей строки (иначе заполнить нулём).
Грубо говоря нужно что то типо .fillna(method='ffill') , но с условием на id

11:38пожаловаться #2

AK

Пока есть идея пробежаться циклом по всем id и применять к кусочкам датафрейма fillna, есть оптимальнее способы?

11:38пожаловаться #3

АМ

А id строки - это index имеется в виду? Или у вас есть отдельная колонка id?

Roman in Python для анализа данных

11:39пожаловаться #4

R

Alex Koletvin

Добрый день, подскажите как можно заполнить отсутсвующие (или нулевые) значение в столбце в датафрейме предыдущим значением, но при условие, что id предыдущей строки совпадает с id текущей строки (иначе заполнить нулём).
Грубо говоря нужно что то типо .fillna(method='ffill') , но с условием на id

Я бы циклом через .loc делал

Anastasia Belokon in Python для анализа данных

11:59пожаловаться #5

AB

Alex Koletvin

Добрый день, подскажите как можно заполнить отсутсвующие (или нулевые) значение в столбце в датафрейме предыдущим значением, но при условие, что id предыдущей строки совпадает с id текущей строки (иначе заполнить нулём).
Грубо говоря нужно что то типо .fillna(method='ffill') , но с условием на id

Добрый день! Вы можете сделать ffill по всему датафрейму, а затем заполнить значения при несовпадающих id нулем. Вот таким способом: df.loc[df['id'].shift()!=df['id']] = 0 (это если id отдельная колонка)

12:07пожаловаться #6

АМ

А ещё можно попробовать что-то вот такое сделать df.groupby(['id'], as_index=False).apply(lambda group: group.ffill())

12:07пожаловаться #7

AK

Алексей Макаров

А id строки - это index имеется в виду? Или у вас есть отдельная колонка id?

вообще отдельная колонка, но можно сделать индексом, не принципиально

12:40пожаловаться #8

AK

Anastasia Belokon

Добрый день! Вы можете сделать ffill по всему датафрейму, а затем заполнить значения при несовпадающих id нулем. Вот таким способом: df.loc[df['id'].shift()!=df['id']] = 0 (это если id отдельная колонка)

В этом слчае насколько я понимаю устранится проблема с первым значением, но ffill может "загадить" сотни значений с другим айди

12:42пожаловаться #9

AK

Алексей Макаров

А ещё можно попробовать что-то вот такое сделать df.groupby(['id'], as_index=False).apply(lambda group: group.ffill())

Попробую спасибо

12:44пожаловаться #10

AK

Roman

Я бы циклом через .loc делал

Тоже сразу про это подумал, посмотрю на производительность предыдущего метода, возможно самый простой вариант с циклом вполне неплох

12:44пожаловаться #11

AK

Еще вопрос - как можно сгрппировать таблицу такого вида таким образом, что если в столбце 'poor' идет несколько значение True (или False) подряд, то эти строки аггрегировались и добавлялся столбец с протяженностью периода (то есть максимально utc_time минус минимальное).
При этом groupby['generated_id','realpurchase_count', 'poor'] не подходит, так как нужно группировать именно по идущим подряд непрерывающимся отрезкам True или False.
Писать ли функцию для этого или в чудесном пандасе можно реализовать такую задачу проще?

13:25пожаловаться #12

АМ

Я бы сделал отдельную колонку, в которой считался бы номер подряд идущего блока True или False, а потом уже групбай с этой колонкой

13:31пожаловаться #13

АМ

Можно сделать колонку df['poor'] != df['poor'].shift(1). Она будет принимать значение 0, если значение poor совпадает, и 1 если значение не совпадает