Телеграмм чат группы pydata

Есть планы, в ближайших пока только очные курсы и скорее про использование различных API, чем про анализ данных. Но глобально вынашиваю планы курсов по Pandas с таким прям низкоуровневым погружением в то как работают различные функции. Чтобы на выходе человек мог делать очень сложные штуки, а не просто pivot_table, да groupby

источник

17:30пожаловаться #5

АМ

Алексей Макаров... in Python для анализа данных

M 🌗🌘🌑🌒🌓

системных аналитиков?

Ага, уже добавили)

источник

17:31пожаловаться #6

dd

dgj dfsh in Python для анализа данных

Алексей Макаров

Есть планы, в ближайших пока только очные курсы и скорее про использование различных API, чем про анализ данных. Но глобально вынашиваю планы курсов по Pandas с таким прям низкоуровневым погружением в то как работают различные функции. Чтобы на выходе человек мог делать очень сложные штуки, а не просто pivot_table, да groupby

а пример "сложных штук" можно в студию?

источник

17:33пожаловаться #7

АМ

Алексей Макаров... in Python для анализа данных

dgj dfsh

а пример "сложных штук" можно в студию?

multiindex; понимание того где и когда нужно использовать lambda и apply, а где не надо; stack и unstack; всякие интересные задачки на использование shift и cumsum, в том числе с использованием их в groupby; разные манипуляции с датой/временем (например, преобразование timedelta в обычные целочисленные значения разных размерностей - дни, месяцы, недели); использование melt и других не самых очевидных функций; всякие qcut и cut. На мой взгляд, самая большая проблема заключается в том, что люди часто не знают многих функций pandas, которые встроены по умолчанию, и начинают городить велосипеды, например, итерации по строкам, или если нужны категории по диапазонам, то начинают бить вручную через lambda, а не используют cut. Вот собственно какой-то такой подход хочется привить - очень большое число задач можно решать встроенными возможностями pandas и numpy

источник

17:40пожаловаться #8

sn

serg n. in Python для анализа данных

Алексей Макаров

multiindex; понимание того где и когда нужно использовать lambda и apply, а где не надо; stack и unstack; всякие интересные задачки на использование shift и cumsum, в том числе с использованием их в groupby; разные манипуляции с датой/временем (например, преобразование timedelta в обычные целочисленные значения разных размерностей - дни, месяцы, недели); использование melt и других не самых очевидных функций; всякие qcut и cut. На мой взгляд, самая большая проблема заключается в том, что люди часто не знают многих функций pandas, которые встроены по умолчанию, и начинают городить велосипеды, например, итерации по строкам, или если нужны категории по диапазонам, то начинают бить вручную через lambda, а не используют cut. Вот собственно какой-то такой подход хочется привить - очень большое число задач можно решать встроенными возможностями pandas и numpy

👍

источник

17:42пожаловаться #9

dd

dgj dfsh in Python для анализа данных

Алексей Макаров

multiindex; понимание того где и когда нужно использовать lambda и apply, а где не надо; stack и unstack; всякие интересные задачки на использование shift и cumsum, в том числе с использованием их в groupby; разные манипуляции с датой/временем (например, преобразование timedelta в обычные целочисленные значения разных размерностей - дни, месяцы, недели); использование melt и других не самых очевидных функций; всякие qcut и cut. На мой взгляд, самая большая проблема заключается в том, что люди часто не знают многих функций pandas, которые встроены по умолчанию, и начинают городить велосипеды, например, итерации по строкам, или если нужны категории по диапазонам, то начинают бить вручную через lambda, а не используют cut. Вот собственно какой-то такой подход хочется привить - очень большое число задач можно решать встроенными возможностями pandas и numpy

👍 про cut надо будет поискать

источник

17:43пожаловаться #10

OB

Oleg Basmanov in Python для анализа данных

Ребят есть идеи чего можно придумать? есть датафрейм. в нем на каждый parent_id приходится несколько id. мне нужно выбрать только один. условия: 1. цена меньше. если цена одинаковая то тот у кого остаток больше, если остаток одинаковый то рандомно, например тот чей id больше. c одним критерием я просто делал rank. а двумя разноправленными (цена меньше, остаток больше) и тем более с тремя - вообще в тупик зашел. есть идеи как это сделать?

источник

18:13пожаловаться #11

k

kaledonec in Python для анализа данных

Anastasiya В ОТПУСКЕ Knyazeva

золотые слова!

Платиновые

источник

18:14пожаловаться #12

ВЛ

Владислав Литвинюк... in Python для анализа данных

Oleg Basmanov

Ребят есть идеи чего можно придумать? есть датафрейм. в нем на каждый parent_id приходится несколько id. мне нужно выбрать только один. условия: 1. цена меньше. если цена одинаковая то тот у кого остаток больше, если остаток одинаковый то рандомно, например тот чей id больше. c одним критерием я просто делал rank. а двумя разноправленными (цена меньше, остаток больше) и тем более с тремя - вообще в тупик зашел. есть идеи как это сделать?

Скиньте df и конечный, приблизительный, результат

источник

18:16пожаловаться #13

АМ

Алексей Макаров... in Python для анализа данных

Oleg Basmanov

Ребят есть идеи чего можно придумать? есть датафрейм. в нем на каждый parent_id приходится несколько id. мне нужно выбрать только один. условия: 1. цена меньше. если цена одинаковая то тот у кого остаток больше, если остаток одинаковый то рандомно, например тот чей id больше. c одним критерием я просто делал rank. а двумя разноправленными (цена меньше, остаток больше) и тем более с тремя - вообще в тупик зашел. есть идеи как это сделать?

sort_values сначала по нескольким колонкам, by = ['parent_good_id','price','ostatki','id']. Также нужно задать разные ascending = [True, True, False, False]. Вот тут можно посмотреть похожий пример сортировки. А потом уже когда все отсортировано как надо, нужно сделать drop_duplicates(subset=['parent_good_id'])

источник

18:20пожаловаться #14

АМ

Алексей Макаров... in Python для анализа данных

Еще наверно можно было бы попробовать кастомную агрегирующую функцию написать, которая возвращала бы True для таких строк, которые соответствующим условиям удовлетворяют, но это кажется более сложным решением

источник

18:22пожаловаться #15

OB

Oleg Basmanov in Python для анализа данных

Алексей Макаров

sort_values сначала по нескольким колонкам, by = ['parent_good_id','price','ostatki','id']. Также нужно задать разные ascending = [True, True, False, False]. Вот тут можно посмотреть похожий пример сортировки. А потом уже когда все отсортировано как надо, нужно сделать drop_duplicates(subset=['parent_good_id'])

круто. о таком алгоритме я даже не задумывался. все ранки мучал

источник

18:24пожаловаться #16

ВЛ

Владислав Литвинюк... in Python для анализа данных

Владислав Литвинюк

Скиньте df и конечный, приблизительный, результат

😔

источник

18:25пожаловаться #17

OB

Oleg Basmanov in Python для анализа данных

Владислав Литвинюк

😔

да там лишнего скинул. удалил, а тут уже и Алексей ответ написал. Так что не надо :)

источник

18:26пожаловаться #18

ВЛ

Владислав Литвинюк... in Python для анализа данных

Oleg Basmanov

да там лишнего скинул. удалил, а тут уже и Алексей ответ написал. Так что не надо :)

Та сам хотел чекнуть))

источник

18:27пожаловаться #19

Е

Евгений in Python для анализа данных

Алексей Макаров

multiindex; понимание того где и когда нужно использовать lambda и apply, а где не надо; stack и unstack; всякие интересные задачки на использование shift и cumsum, в том числе с использованием их в groupby; разные манипуляции с датой/временем (например, преобразование timedelta в обычные целочисленные значения разных размерностей - дни, месяцы, недели); использование melt и других не самых очевидных функций; всякие qcut и cut. На мой взгляд, самая большая проблема заключается в том, что люди часто не знают многих функций pandas, которые встроены по умолчанию, и начинают городить велосипеды, например, итерации по строкам, или если нужны категории по диапазонам, то начинают бить вручную через lambda, а не используют cut. Вот собственно какой-то такой подход хочется привить - очень большое число задач можно решать встроенными возможностями pandas и numpy

sticker.webp

(40.42 Кб)

источник

19:59пожаловаться #20