Size: a a a

2021 July 16

ЕГ

Евгений Глотов... in Moscow Spark
Ну типа возможно это самый быстрый способ узнать, есть ли в дф 100 элементов или их там меньше)
источник

CO

Chern Oleksander in Moscow Spark
Так это как пример был.
Главная задача была быстро посмотреть маленький кусочек df. Это по примеру ...
источник

CO

Chern Oleksander in Moscow Spark
А что это даёт?)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Arrow по идее даёт ускорение операций между пандасом и спарком, например spark_df.toPandas()
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но конкретно твой случай будет замедляться)
источник

CO

Chern Oleksander in Moscow Spark
Буду пробовать, спасибо
источник

CO

Chern Oleksander in Moscow Spark
))))
источник

N

Nikita Blagodarnyy in Moscow Spark
Тогда напиши .show(100,false)
источник

ЕГ

Евгений Глотов... in Moscow Spark
А табличка партицирована?
источник

N

Nikita Blagodarnyy in Moscow Spark
Или как там в петухоне .show(100, False)
источник

CO

Chern Oleksander in Moscow Spark
Ладно, а давайте я другой вопрос задам.
Есть паркет опять же на S3
Данные по продажам, 20 Гб, 30 млн строк
Структура
User_id: long
Created_date: timestamp
Amount: long
Type: string
Company: string
Партии по дням

Хочу создать таблицу для аналитики
На каждый день по одному пользователю коммулятивную сумму продаж.

Если продажи были 1го числа 10 и 3го 20
Тогда должно быть
1-10
2-10
3-30
Как легче всего это реализовать ?
источник

CO

Chern Oleksander in Moscow Spark
Спасибо попробую
источник

ЕГ

Евгений Глотов... in Moscow Spark
Хранить расчет за каждый день, поднимать вчерашний день + новый день, групбай пользователь, сумма)
Сохранить в новый день
источник

ЕГ

Евгений Глотов... in Moscow Spark
А, надо ещё если юзера в дне не было, чтоб у него строки тоже не было
источник

ЕГ

Евгений Глотов... in Moscow Spark
Тогда оконкой
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вообще 30млн это такая мелочь, что можно над ними всё что угодно сделать, и будет ок
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вот когда у тебя было 50млрд строк, и ты потерял из них где-то 30млн, вот тут уже проблемы)
источник

CO

Chern Oleksander in Moscow Spark
Я сделал через spark.sql в окне через cross join для создания первичной таблицы и расчет занял 52 минуты (((
Я считаю это пипец как много
источник

ЕГ

Евгений Глотов... in Moscow Spark
А кросс-джойн там зачем?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Мне кажется оконок должно быть достаточно, чтобы эту задачу решить
источник