Size: a a a

Python для анализа данных

2018 December 25

IB

Ilya Brodskiy in Python для анализа данных
Это полезно)
источник

АМ

Алексей Макаров... in Python для анализа данных
Ilya Brodskiy
Это полезно)
Сейчас ещё народу сюда попробую нагнать из канала и группы на FB
источник

IB

Ilya Brodskiy in Python для анализа данных
Я бы вообще сделал больше про аналитику
Особенно в рамках адекватности вычисления различных метрик
источник

АМ

Алексей Макаров... in Python для анализа данных
Ilya Brodskiy
Я бы вообще сделал больше про аналитику
Особенно в рамках адекватности вычисления различных метрик
Про аналитику есть чатик Леши Никушина
источник

AA

Aziz Apsalyamov in Python для анализа данных
Алексей Макаров
Про аналитику есть чатик Леши Никушина
этот тот куда не пускают простых смертных?)
источник

АМ

Алексей Макаров... in Python для анализа данных
Ну да🙂но достаточно  написать Леше (@a_nikushin) с просьбой добавить и описанием кто такой и чем занимаешься и он добавит... возможно =)
источник

AA

Aziz Apsalyamov in Python для анализа данных
Давнноооо пытался. Он тогда отключил сообщения от незнакомых людей)
ок, позже попробую пробиться
источник

DS

Dmitriy Shashkin in Python для анализа данных
Нетерпится рассказать про метод chaining. После dplyr не мог заставить себя переключиться обратно, поэтому нашёл способ делать через цепочки всё. Кроме query также интересен assign, который позволяет создавать новые столбцы. Пример df.assign(new_col=lambda d: d.old_col_1 + d.old_col_2). И второй метод pipe. Это когда известные спобы сделать цепочку не работают, поэтому ты пишешь функцию и передаешь в pipe. Пример
def replace_cols(df, new_cols):
   df.columns = new_cols
   return df

df.pipe(replace_cols, ['col1', 'col2'])

Вариант выше позволяет, например, преименовать столбцы после того как агрегация создала 2 уровня в названиях колонок
источник

DS

Dmitriy Shashkin in Python для анализа данных
А и ещё, чтобы цепочка осталась читаемой можно так:
(
   df
   .assign(...)
   .groupby()
   .agg()
   .query()
)
источник

DS

Dmitriy Shashkin in Python для анализа данных
Скобочки позволяют на много строк разбивать
источник

АМ

Алексей Макаров... in Python для анализа данных
Да, pipe отличная штука. Я про него узнал из статьи https://tomaugspurger.github.io/method-chaining
источник

АМ

Алексей Макаров... in Python для анализа данных
А вместо assign можно использовать eval https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.eval.html
источник

DS

Dmitriy Shashkin in Python для анализа данных
О, про eval даже не слышал) Спасибо!
источник

АМ

Алексей Макаров... in Python для анализа данных
Вообще идеологически все методы хотят к версии 1.0 сделать такими, чтобы можно было все делать цепочками методов
источник

АМ

Алексей Макаров... in Python для анализа данных
Сейчас например pivot через метод нельзя сделать, насколько мне известно
источник

DS

Dmitriy Shashkin in Python для анализа данных
Очень надеюсь что они также аггрегацию поправят, сейчас это всё ужасно, особенно когда нужно 2 метрики посчитать на одном поле и потом с этим как-то работать. После dplyr это почти также больно как с matplot после ggplot2
источник

АМ

Алексей Макаров... in Python для анализа данных
Dmitriy Shashkin
Очень надеюсь что они также аггрегацию поправят, сейчас это всё ужасно, особенно когда нужно 2 метрики посчитать на одном поле и потом с этим как-то работать. После dplyr это почти также больно как с matplot после ggplot2
А в чем проблема с двумя агрегациями по одной колонке? Есть ведь agg вида agg({'col':['sum', 'mean']})
источник

АМ

Алексей Макаров... in Python для анализа данных
Потом правда по мультииндексу придётся к колонкам обращаться
источник

MB

Madina Baimukhanova in Python для анализа данных
Ура, появился чат) у меня проблема с вытаскиванием данных из апи hh.ru, 1400 вакансий получается получить, на остальных говорит что "IOPub data rate exceeded. The notebook server will temporarily stop sending output to the client in order to avoid crashing it. To change this limit, set the config variable --NotebookApp.iopub_data_rate_limit". Знаете как и где можно это настроить?
источник

DS

Dmitriy Shashkin in Python для анализа данных
Алексей Макаров
Потом правда по мультииндексу придётся к колонкам обращаться
Именно) Я так и не понял как потом переименовать что-то через rename или отфильтровать через query
источник