Size: a a a

Python для анализа данных

2019 July 11

АМ

Алексей Макаров... in Python для анализа данных
Valeryia Rokhlina
Тут в чате СА другое мнение у людей)
А что за чатик?
источник

AK

Anastasiya В ОТПУСКЕ... in Python для анализа данных
Владислав Литвинюк
Когда выступаешь - сам учишся)
золотые слова!
источник

К

Константин in Python для анализа данных
Алексей Макаров
Так что пока есть время запрыгнуть на поезд хайпа, нужно пилить свои😂
а если серьезно есть планы своих курсов?
углубленных курсов по анализу с python не хватает, по мне дак
источник

M

M 🌗🌘🌑🌒🌓... in Python для анализа данных
Алексей Макаров
А что за чатик?
системных аналитиков?
источник

АМ

Алексей Макаров... in Python для анализа данных
Константин
а если серьезно есть планы своих курсов?
углубленных курсов по анализу с python не хватает, по мне дак
Есть планы, в ближайших пока только очные курсы и скорее про использование различных API, чем про анализ данных. Но глобально вынашиваю планы курсов по Pandas с таким прям низкоуровневым погружением в то как работают различные функции. Чтобы на выходе человек мог делать очень сложные штуки, а не просто pivot_table, да groupby
источник

АМ

Алексей Макаров... in Python для анализа данных
M 🌗🌘🌑🌒🌓
системных аналитиков?
Ага, уже добавили)
источник

dd

dgj dfsh in Python для анализа данных
Алексей Макаров
Есть планы, в ближайших пока только очные курсы и скорее про использование различных API, чем про анализ данных. Но глобально вынашиваю планы курсов по Pandas с таким прям низкоуровневым погружением в то как работают различные функции. Чтобы на выходе человек мог делать очень сложные штуки, а не просто pivot_table, да groupby
а пример "сложных штук" можно в студию?
источник

АМ

Алексей Макаров... in Python для анализа данных
dgj dfsh
а пример "сложных штук" можно в студию?
multiindex; понимание того где и когда нужно использовать lambda и apply, а где не надо; stack и unstack; всякие интересные задачки на использование shift и cumsum, в том числе с использованием их в groupby; разные манипуляции с датой/временем (например, преобразование timedelta в обычные целочисленные значения разных размерностей - дни, месяцы, недели); использование melt и других не самых очевидных функций; всякие qcut и cut. На мой взгляд, самая большая проблема заключается в том, что люди часто не знают многих функций pandas, которые встроены по умолчанию, и начинают городить велосипеды, например, итерации по строкам, или если нужны категории по диапазонам, то начинают бить вручную через lambda, а не используют cut. Вот собственно какой-то такой подход хочется привить - очень большое число задач можно решать встроенными возможностями pandas и numpy
источник

sn

serg n. in Python для анализа данных
Алексей Макаров
multiindex; понимание того где и когда нужно использовать lambda и apply, а где не надо; stack и unstack; всякие интересные задачки на использование shift и cumsum, в том числе с использованием их в groupby; разные манипуляции с датой/временем (например, преобразование timedelta в обычные целочисленные значения разных размерностей - дни, месяцы, недели); использование melt и других не самых очевидных функций; всякие qcut и cut. На мой взгляд, самая большая проблема заключается в том, что люди часто не знают многих функций pandas, которые встроены по умолчанию, и начинают городить велосипеды, например, итерации по строкам, или если нужны категории по диапазонам, то начинают бить вручную через lambda, а не используют cut. Вот собственно какой-то такой подход хочется привить - очень большое число задач можно решать встроенными возможностями pandas и numpy
👍
источник

dd

dgj dfsh in Python для анализа данных
Алексей Макаров
multiindex; понимание того где и когда нужно использовать lambda и apply, а где не надо; stack и unstack; всякие интересные задачки на использование shift и cumsum, в том числе с использованием их в groupby; разные манипуляции с датой/временем (например, преобразование timedelta в обычные целочисленные значения разных размерностей - дни, месяцы, недели); использование melt и других не самых очевидных функций; всякие qcut и cut. На мой взгляд, самая большая проблема заключается в том, что люди часто не знают многих функций pandas, которые встроены по умолчанию, и начинают городить велосипеды, например, итерации по строкам, или если нужны категории по диапазонам, то начинают бить вручную через lambda, а не используют cut. Вот собственно какой-то такой подход хочется привить - очень большое число задач можно решать встроенными возможностями pandas и numpy
👍 про cut надо будет поискать
источник

OB

Oleg Basmanov in Python для анализа данных
Ребят есть идеи чего можно придумать?  есть датафрейм. в нем на каждый parent_id приходится несколько id. мне нужно выбрать только один. условия: 1. цена меньше. если цена одинаковая то тот у кого остаток больше, если остаток одинаковый то рандомно, например тот чей id больше. c одним критерием я просто делал rank. а двумя разноправленными (цена меньше, остаток больше) и тем более с тремя - вообще в тупик зашел. есть идеи как это сделать?
источник

k

kaledonec in Python для анализа данных
Anastasiya В ОТПУСКЕ Knyazeva
золотые слова!
Платиновые
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Oleg Basmanov
Ребят есть идеи чего можно придумать?  есть датафрейм. в нем на каждый parent_id приходится несколько id. мне нужно выбрать только один. условия: 1. цена меньше. если цена одинаковая то тот у кого остаток больше, если остаток одинаковый то рандомно, например тот чей id больше. c одним критерием я просто делал rank. а двумя разноправленными (цена меньше, остаток больше) и тем более с тремя - вообще в тупик зашел. есть идеи как это сделать?
Скиньте df и конечный, приблизительный, результат
источник

АМ

Алексей Макаров... in Python для анализа данных
Oleg Basmanov
Ребят есть идеи чего можно придумать?  есть датафрейм. в нем на каждый parent_id приходится несколько id. мне нужно выбрать только один. условия: 1. цена меньше. если цена одинаковая то тот у кого остаток больше, если остаток одинаковый то рандомно, например тот чей id больше. c одним критерием я просто делал rank. а двумя разноправленными (цена меньше, остаток больше) и тем более с тремя - вообще в тупик зашел. есть идеи как это сделать?
sort_values сначала по нескольким колонкам, by = ['parent_good_id','price','ostatki','id']. Также нужно задать разные ascending = [True, True, False, False]. Вот тут можно посмотреть похожий пример сортировки. А потом уже когда все отсортировано как надо, нужно сделать drop_duplicates(subset=['parent_good_id'])
источник

АМ

Алексей Макаров... in Python для анализа данных
Еще наверно можно было бы попробовать кастомную агрегирующую функцию написать, которая возвращала бы True для таких строк, которые соответствующим условиям удовлетворяют, но это кажется более сложным решением
источник

OB

Oleg Basmanov in Python для анализа данных
Алексей Макаров
sort_values сначала по нескольким колонкам, by = ['parent_good_id','price','ostatki','id']. Также нужно задать разные ascending = [True, True, False, False]. Вот тут можно посмотреть похожий пример сортировки. А потом уже когда все отсортировано как надо, нужно сделать drop_duplicates(subset=['parent_good_id'])
круто. о таком алгоритме я даже не задумывался. все ранки мучал
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Владислав Литвинюк
Скиньте df и конечный, приблизительный, результат
😔
источник

OB

Oleg Basmanov in Python для анализа данных
да там лишнего скинул. удалил, а тут уже и Алексей ответ написал. Так что не надо :)
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Oleg Basmanov
да там лишнего скинул. удалил, а тут уже и Алексей ответ написал. Так что не надо :)
Та сам хотел чекнуть))
источник

Е

Евгений in Python для анализа данных
Алексей Макаров
multiindex; понимание того где и когда нужно использовать lambda и apply, а где не надо; stack и unstack; всякие интересные задачки на использование shift и cumsum, в том числе с использованием их в groupby; разные манипуляции с датой/временем (например, преобразование timedelta в обычные целочисленные значения разных размерностей - дни, месяцы, недели); использование melt и других не самых очевидных функций; всякие qcut и cut. На мой взгляд, самая большая проблема заключается в том, что люди часто не знают многих функций pandas, которые встроены по умолчанию, и начинают городить велосипеды, например, итерации по строкам, или если нужны категории по диапазонам, то начинают бить вручную через lambda, а не используют cut. Вот собственно какой-то такой подход хочется привить - очень большое число задач можно решать встроенными возможностями pandas и numpy
источник