Телеграмм чат группы pydata

23:51пожаловаться #1

ФК

Tim

Unstacked DataFrame is too big, causing int32 overflow

Я же правильно понимаю, что количество столбцов превысило максимальное значение типа int32 - 2млрд 147 млн? У вас больше столбцов при транспонировании?! 😳

23:55пожаловаться #2

T

Я же правильно понимаю, что количество столбцов превысило максимальное значение типа int32 - 2млрд 147 млн? У вас больше столбцов при транспонировании?! 😳

Не настолько много) Тут в некоторых issue на гитхабе такая проблема возникает и с меньшим количеством

23:57пожаловаться #3

T

А решения так и нет

23:57пожаловаться #4

ФК

Может количество ячеек фрейма достигает такого количества? И при транспонировании он пытается их все записать в память. Но больше int32 не влезает...

23:59пожаловаться #5

ФК

А что если поделить фрейм на чанки, транспонировать, а потом объединить джоином?

23:59пожаловаться #6

2019 August 18

T

А что если поделить фрейм на чанки, транспонировать, а потом объединить джоином?

Да, хорошая идея,нужно попробовать. Спасибо

00:02пожаловаться #7

ФК

;)

00:04пожаловаться #8

T

;)

Строка на 700 тыс не транспонируется(

00:32пожаловаться #9

ФК

Так надо мельче, получается

00:33пожаловаться #10

ФК

Или я неправильно понял

00:33пожаловаться #11

ФК

Меньшее количество строк, больше чанков

00:34пожаловаться #12

T

Меньшее количество строк, больше чанков

Знать бы заранее насколько мельче 😃

Oleg Omelchenko in Python для анализа данных

00:35пожаловаться #13

2019 August 19

OO

привет!
Есть два датафрейма, один — "справочник", второй - содержит список действий.
Задача: объединить один со вторым и превратить во вложенный JSON.
Вот пример того как это должно работать: https://colab.research.google.com/drive/1PWTpjuOYvgvDhgrqzyz-Yh07dpNMknuJ#scrollTo=HDwoLSn-6fHx
Загвоздка в том, что это решение начинает жрать кучу времени, как только "справочник" разрастается до нескольких тысяч значений. Чувствую, что есть более эффективный вариант решения задачи, но нагуглить ничего не удалось пока что

Google

Google Colaboratory

Yuriy Prudnikov in Python для анализа данных

17:02пожаловаться #14

YP

Oleg Omelchenko

привет!
Есть два датафрейма, один — "справочник", второй - содержит список действий.
Задача: объединить один со вторым и превратить во вложенный JSON.
Вот пример того как это должно работать: https://colab.research.google.com/drive/1PWTpjuOYvgvDhgrqzyz-Yh07dpNMknuJ#scrollTo=HDwoLSn-6fHx
Загвоздка в том, что это решение начинает жрать кучу времени, как только "справочник" разрастается до нескольких тысяч значений. Чувствую, что есть более эффективный вариант решения задачи, но нагуглить ничего не удалось пока что

Google

Google Colaboratory

Можно доступ?

Oleg Omelchenko in Python для анализа данных

17:09пожаловаться #15

OO

Yuriy Prudnikov

Можно доступ?

там можно копию сделать, как в гуглодоке - "open in playground" / "copy to drive"

Oleg Omelchenko in Python для анализа данных

17:16пожаловаться #16

OO

Oleg Omelchenko

привет!
Есть два датафрейма, один — "справочник", второй - содержит список действий.
Задача: объединить один со вторым и превратить во вложенный JSON.
Вот пример того как это должно работать: https://colab.research.google.com/drive/1PWTpjuOYvgvDhgrqzyz-Yh07dpNMknuJ#scrollTo=HDwoLSn-6fHx
Загвоздка в том, что это решение начинает жрать кучу времени, как только "справочник" разрастается до нескольких тысяч значений. Чувствую, что есть более эффективный вариант решения задачи, но нагуглить ничего не удалось пока что

Google

Google Colaboratory

получилось уменьшить время выполнения, если предварительно сгруппировать таблицу со значениями и брать оттуда датафреймы через .get_group():

grouped = values_df.groupby('a')
lookup_df['values'] = lookup_df['lookup_value'].apply(lambda x: grouped.get_group(x).to_dict(orient='records'))
lookup_df.to_json(orient='records')

Владислав Литвинюк... in Python для анализа данных

18:31пожаловаться #17

ВЛ

Oleg Omelchenko

получилось уменьшить время выполнения, если предварительно сгруппировать таблицу со значениями и брать оттуда датафреймы через .get_group():

grouped = values_df.groupby('a')
lookup_df['values'] = lookup_df['lookup_value'].apply(lambda x: grouped.get_group(x).to_dict(orient='records'))
lookup_df.to_json(orient='records')

numpy быстрый, может через него часть операций?

Yuriy Prudnikov in Python для анализа данных

18:34пожаловаться #18

YP

Владислав Литвинюк

numpy быстрый, может через него часть операций?

Там, насколько я понимаю, бОльшую часть времени выполняется get_group, т.к. он для каждой строки отрабатывает. Не думаю, что через numpy можно как то это сделать.
Я пытался без apply сделать, но ничего не вышло

эдуард in Python для анализа данных

18:37пожаловаться #19

э

привет. кто-нибудь имел успешный опыт вытягивания названий столбцов из кликхауса через sqlalchemy? дичь какую-то отдаёт в res.keys() , а параметр with_column_types не работает.