Телеграмм чат группы pydata

Size: a a a

Python для анализа данных

1463 membersпожаловаться на группу

2019 July 25

АМ

Алексей Макаров... in Python для анализа данных

https://github.com/Melevir/rozental_as_a_service

GitHub

Melevir/rozental_as_a_service

Библиотека для поиска опечаток в исходном коде. Contribute to Melevir/rozental_as_a_service development by creating an account on GitHub.

источник

13:21пожаловаться #1

Vadim Shatalov in Python для анализа данных

Alex Koletvin

Подскажите как храните данные, которые выкачивате из различных источников. Речь про обычные csv. Как надежнее и правильнее организовать хранение?
Дозаписывать каждый день в один большой csv, сохраняя его копию на всякий случай?
Писать каждый день один новый маленький csv?
Хранить вообще в другом формате? В общем подскажите как лучше сделать

Тогда уж лучше в parquet - и сжатие поддерживает и схему не теряешь, и поддерживается много чем

источник

13:40пожаловаться #2

Andrey Denisov in Python для анализа данных

Привет, есть в pandas колонка, которая является результатом отношения нескольких величин, тип int. Мне по этим цифрам нужно в mpl нарисовать график, но отобразить не цифрами, а процентам. Есть что-то простое?

источник

17:40пожаловаться #3

Andrey Denisov in Python для анализа данных

Пока есть такое
vals = ax.get_yticks()
ax.set_yticklabels(['{:,.2%}'.format(x) for x in vals])

Больше никак?

источник

17:42пожаловаться #4

2019 July 26

Maksim Yasinski in Python для анализа данных

добрый день!
нужна помощь:

источник

13:04пожаловаться #5

Maksim Yasinski in Python для анализа данных

источник

13:04пожаловаться #6

Maksim Yasinski in Python для анализа данных

как оставить строки с более поздними датами?

источник

13:04пожаловаться #7

Maksim Yasinski in Python для анализа данных

заранее конкретная дата неизвестна

источник

13:05пожаловаться #8

Oleg Basmanov in Python для анализа данных

недавног ту же задачу решали

источник

13:07пожаловаться #9

Oleg Basmanov in Python для анализа данных

Переслано от Алексей Макаров...

sort_values сначала по нескольким колонкам, by = ['parent_good_id','price','ostatki','id']. Также нужно задать разные ascending = [True, True, False, False]. Вот тут можно посмотреть похожий пример сортировки. А потом уже когда все отсортировано как надо, нужно сделать drop_duplicates(subset=['parent_good_id'])

источник

13:07пожаловаться #10

АМ

Алексей Макаров... in Python для анализа данных

А что значит более поздняя дата? Для каждого Client должна быть оставлена наиболее поздняя дата? Или вообще должны быть оставлены только такие строки, где максимальное EndAccess?

источник

13:08пожаловаться #11

АМ

Алексей Макаров... in Python для анализа данных

Еще можно создать колонку с максимальной датой df['max_value'] = df['value'].groupby(df['id']).transform('max')

источник

13:09пожаловаться #12

Maksim Yasinski in Python для анализа данных

Алексей Макаров

для каждого номера авто

источник

13:11пожаловаться #13