Size: a a a

Python для анализа данных

2019 July 25

АМ

Алексей Макаров... in Python для анализа данных
источник

VS

Vadim Shatalov in Python для анализа данных
Alex Koletvin
Подскажите как храните данные, которые выкачивате из различных источников. Речь про обычные csv. Как надежнее и правильнее организовать хранение?
Дозаписывать каждый день в один большой csv, сохраняя его копию на всякий случай?
Писать каждый день один новый маленький csv?
Хранить вообще в другом формате? В общем подскажите как лучше сделать
Тогда уж лучше в parquet - и сжатие поддерживает и схему не теряешь, и поддерживается много чем
источник

A

Andrey Denisov in Python для анализа данных
Привет, есть в pandas колонка, которая является результатом отношения нескольких величин, тип int. Мне по этим цифрам нужно в mpl нарисовать график, но отобразить не цифрами, а процентам. Есть что-то простое?
источник

A

Andrey Denisov in Python для анализа данных
Пока есть такое
vals = ax.get_yticks()
ax.set_yticklabels(['{:,.2%}'.format(x) for x in vals])

Больше никак?
источник
2019 July 26

MY

Maksim Yasinski in Python для анализа данных
добрый день!
нужна помощь:
источник

MY

Maksim Yasinski in Python для анализа данных
источник

MY

Maksim Yasinski in Python для анализа данных
как оставить строки с более поздними датами?
источник

MY

Maksim Yasinski in Python для анализа данных
заранее конкретная дата неизвестна
источник

OB

Oleg Basmanov in Python для анализа данных
недавног ту же задачу решали
источник

OB

Oleg Basmanov in Python для анализа данных
Переслано от Алексей Макаров...
sort_values сначала по нескольким колонкам, by = ['parent_good_id','price','ostatki','id']. Также нужно задать разные ascending = [True, True, False, False]. Вот тут можно посмотреть похожий пример сортировки. А потом уже когда все отсортировано как надо, нужно сделать drop_duplicates(subset=['parent_good_id'])
источник

АМ

Алексей Макаров... in Python для анализа данных
А что значит более поздняя дата? Для каждого Client должна быть оставлена наиболее поздняя дата? Или вообще должны быть оставлены только такие строки, где максимальное EndAccess?
источник

АМ

Алексей Макаров... in Python для анализа данных
Еще можно создать колонку с максимальной датой df['max_value'] = df['value'].groupby(df['id']).transform('max')
источник

MY

Maksim Yasinski in Python для анализа данных
Алексей Макаров
А что значит более поздняя дата? Для каждого Client должна быть оставлена наиболее поздняя дата? Или вообще должны быть оставлены только такие строки, где максимальное EndAccess?
для каждого номера авто
источник

MY

Maksim Yasinski in Python для анализа данных
это колонки с NaN
источник

АМ

Алексей Макаров... in Python для анализа данных
А нельзя эти колонки в одну объединить? Тогда было бы удобнее groupby применить
источник

MY

Maksim Yasinski in Python для анализа данных
даем доступ по номеру машины
источник

АМ

Алексей Макаров... in Python для анализа данных
То есть может быть ситуация, когда, например, заполнен и столбец 8005 и столбец 9851?
источник

MY

Maksim Yasinski in Python для анализа данных
я потом схлопываю по dropna() и становится понятно кому давать доступ, но надо его дать 1 раз, а тут 2 получится
источник

MY

Maksim Yasinski in Python для анализа данных
Алексей Макаров
То есть может быть ситуация, когда, например, заполнен и столбец 8005 и столбец 9851?
не может
источник

MY

Maksim Yasinski in Python для анализа данных
Алексей Макаров
То есть может быть ситуация, когда, например, заполнен и столбец 8005 и столбец 9851?
но на каждую колонку не NAN могут быть свои сроки доступа, поэтому так объединить не получится
источник