Size: a a a

Python для анализа данных

2019 August 28

NS

Nikita Shein in Python для анализа данных
Можно, очень неудобно, очень геморно, нужно заранее знать по каким колонкам раскладывать (если я правильно понял что в хелпе написано).
Если бы приспичило, то я бы проще решал через
case when
А потом получившееся уже суммировал и вот это всё что вам может понадобиться.
ну и ваши потомки, кому с этим потом жить с большей вероятностью разберутся, что там происходит
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
dgj dfsh
О, спасибо! Я правильно понял, что там можно только одну агрегирующую ф-ию использовать для разворачиваемого столбца?
несколько
pd.pivot_table(df, values='paid', index=['date_week_ses'],
                     columns=['date_week_crm'], aggfunc=[np.sum,np.std])
источник

NS

Nikita Shein in Python для анализа данных
но и то этим кажется есть смысл заниматься, если вывод результата запроса сразу на принтер, а во всех остальных случаях лучше всё это делать в пандасах, пивотах, и т.д
источник

dd

dgj dfsh in Python для анализа данных
Ну вы ребята даете, решаете и отвечаете на то о чем вас не спрашивают :)
источник

A

Ashron in Python для анализа данных
dgj dfsh
В данном контексте хочу просто понять применимость этого механизма в мс скл.
Применял редко и как правило только если вот прям очень нужно для какого-то отчета. Во всех остальных случаях, если приходилось это применять, то как правило значит или я или кто-то ошибся при проектировании таблиц.
источник

dd

dgj dfsh in Python для анализа данных
Может слово ошибался надо в кавычки взять? Обычно это нужно когда значения столбца динамические, могут добавляться, меняться и т.п.
источник

A

Ashron in Python для анализа данных
Ну это мой опыт) и я только "вхожу" в мир аналитики....выходя из бэкэнд разработчика, возможно в аналитике чаще приходиться транспонировать таблицы.  А так оператор как оператор... ))) рабочий и применяемый.
источник

dd

dgj dfsh in Python для анализа данных
Ashron
Применял редко и как правило только если вот прям очень нужно для какого-то отчета. Во всех остальных случаях, если приходилось это применять, то как правило значит или я или кто-то ошибся при проектировании таблиц.
Но прменяли именно с несколькими агрегир. ф-ями внутри пивота для столбца?
источник

dd

dgj dfsh in Python для анализа данных
Именно поддержка этого механизма интересна, т.к. из доки этого не следует
источник

dd

dgj dfsh in Python для анализа данных
Там описан синтаксис поддержки только одной агрег. ф-ии
источник

A

Ashron in Python для анализа данных
Вам никто не мешает транспонировать не только select column1, count(*)....но и к примеру select column1, count(*), sum(column2) , ....если вы об этом
источник

dd

dgj dfsh in Python для анализа данных
Ashron
Вам никто не мешает транспонировать не только select column1, count(*)....но и к примеру select column1, count(*), sum(column2) , ....если вы об этом
ok
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Алексей Макаров
df['week'] = df['day'] - pd.to_timedelta(df['day'].dt.dayofweek, unit='d')
Спасибо, сделал по неделям
А если,  я захочу указать не каждую неделю, а 15 дней?
И если месяц или год то, соответственно?
df['day'] - pd.to_timedelta(df['day'].dt.month, unit='d')
df['day'] - pd.to_timedelta(df['day'].dt.year, unit='d')
источник

АМ

Алексей Макаров... in Python для анализа данных
Нет, так не получается. Там другую функцию надо будет применять
источник

АМ

Алексей Макаров... in Python для анализа данных
К месяцу например можно привести с помощью df['date'].astype('datetime64[M]')
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Алексей Макаров
К месяцу например можно привести с помощью df['date'].astype('datetime64[M]')
Буду пробовать создать кастомную функцию, наверное, там можна через timestamp выкрутить
Спасибо
источник

OA

Oleg Agapov in Python для анализа данных
Кто-нибудь рисовал на питоне такие графики?
источник

OA

Oleg Agapov in Python для анализа данных
источник
2019 August 29

AD

Alex Dyachenko in Python для анализа данных
Добрый вечер, коллеги. Помогите с нубским вопросом: пытаюсь "играться" с анализом данных скорее в виде хобби, и столкнулся, что массивы, которые удается получить, весьма неудобны для анализа. Например, если в поле содержится id элемента из другой таблицы, или таблица представляет список событий, а анализировать нужно интервалы и т.п. делать это на питоне получается ужасно неудобно.
Подскажите, я что-то не так делаю или предварительная склейка и предобработка данных в том же sql - это нормально?

Поясню о чем речь: предположим, у меня есть таблица поступлений по клиент-банку, таблица контрагентов и таблица обращений в crm и я хочу анализировать интервал времени от первого контакта до поступления денег: лучше эти интервалы в sql посчитать и сразу с названиями контрагентов склеить или в python это тоже можно так же просто и удобно сделать?
источник

OO

Oleg Omelchenko in Python для анализа данных
Если запросы не ложат базу — стараюсь предварительно все что можно делать в sql
источник