Телеграмм чат группы moscowspark страница 723

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1136 membersпожаловаться на группу

2021 July 16

ЕГ

Евгений Глотов... in Moscow Spark

Ну типа возможно это самый быстрый способ узнать, есть ли в дф 100 элементов или их там меньше)

источник

01:10пожаловаться #1

CO

Chern Oleksander in Moscow Spark

Так это как пример был.
Главная задача была быстро посмотреть маленький кусочек df. Это по примеру ...

источник

01:10пожаловаться #2

CO

Chern Oleksander in Moscow Spark

А что это даёт?)

источник

01:11пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

Arrow по идее даёт ускорение операций между пандасом и спарком, например spark_df.toPandas()

источник

01:12пожаловаться #4

ЕГ

Евгений Глотов... in Moscow Spark

Но конкретно твой случай будет замедляться)

источник

01:12пожаловаться #5

CO

Chern Oleksander in Moscow Spark

Буду пробовать, спасибо

источник

01:12пожаловаться #6

CO

Chern Oleksander in Moscow Spark

))))

источник

01:12пожаловаться #7

N

Nikita Blagodarnyy in Moscow Spark

Тогда напиши .show(100,false)

источник

01:13пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

А табличка партицирована?

источник

01:13пожаловаться #9

N

Nikita Blagodarnyy in Moscow Spark

Или как там в петухоне .show(100, False)

источник

01:13пожаловаться #10

CO

Chern Oleksander in Moscow Spark

Ладно, а давайте я другой вопрос задам.
Есть паркет опять же на S3
Данные по продажам, 20 Гб, 30 млн строк
Структура
User_id: long
Created_date: timestamp
Amount: long
Type: string
Company: string
Партии по дням

Хочу создать таблицу для аналитики
На каждый день по одному пользователю коммулятивную сумму продаж.

Если продажи были 1го числа 10 и 3го 20
Тогда должно быть
1-10
2-10
3-30
Как легче всего это реализовать ?

источник

01:18пожаловаться #11

CO

Chern Oleksander in Moscow Spark

Спасибо попробую

источник

01:18пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Хранить расчет за каждый день, поднимать вчерашний день + новый день, групбай пользователь, сумма)
Сохранить в новый день

источник

01:29пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

А, надо ещё если юзера в дне не было, чтоб у него строки тоже не было

источник

01:30пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Тогда оконкой

источник

01:31пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Вообще 30млн это такая мелочь, что можно над ними всё что угодно сделать, и будет ок

источник

01:31пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Вот когда у тебя было 50млрд строк, и ты потерял из них где-то 30млн, вот тут уже проблемы)

источник

01:32пожаловаться #17

CO

Chern Oleksander in Moscow Spark

Я сделал через spark.sql в окне через cross join для создания первичной таблицы и расчет занял 52 минуты (((
Я считаю это пипец как много

источник

01:34пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

А кросс-джойн там зачем?

источник

01:35пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

Мне кажется оконок должно быть достаточно, чтобы эту задачу решить

источник

01:35пожаловаться #20