Телеграмм чат группы moscowspark страница 920

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1195 membersпожаловаться на группу

2021 November 29

АА

Артем Анистратов... in Moscow Spark

Тут круче, сначала создаются две сессии, одна получает данные из оракла, немного преобразует, сохраняет в паркет и закрывается. Потом создается вторая забирает данные из хдфс, снова немного преобразует, сохраняет паркетник, сессия закрывается. После чего создается новая сессия, паркетники читаются в tempview и уже sql запросом джоинятся, результат сохраняют в паркетник, сессия закрыта.

источник

11:13пожаловаться #1

АА

Артем Анистратов... in Moscow Spark

К счастью нет)

источник

11:13пожаловаться #2

АА

Артем Анистратов... in Moscow Spark

Вообще я изначально подумал, что все приседания для того, что бы избежать таймаута по возведению py4j сервака(или как он правильно называется)

источник

11:15пожаловаться #3

k

kvadratura in Moscow Spark

это еще ничего. я из предыдущего сообщения подумал, что все через путон-дикт соединяется. создавать сессию несколько раз обычно не за чем, но если так, как сейчас сделано работает на норм обьемах данных, можно и не трогать

источник

11:18пожаловаться #4

АА

Артем Анистратов... in Moscow Spark

Ну по классике "работает- не трогай")

источник

11:20пожаловаться #5

k

kvadratura in Moscow Spark

не совсем. адище стоит переписывать, даже если работает. нужно стараться делать мир немножко лучше

источник

11:21пожаловаться #6

k

kvadratura in Moscow Spark

просто судя по этому описанию, это - не адище. через дикты было бы уже слишком

источник

11:22пожаловаться #7

R

R in Moscow Spark

Я выше кидал ссылку на код + @SparkApplicationMaster кидал свой вариант через monotonically_increasing_id

источник

11:22пожаловаться #8

R

R in Moscow Spark

А так наверное должно, надо смотреть планы, но я не вижу особых преимуществ именно у этого подхода.

источник

11:23пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Это примерно то же самое, что и monotonically_increasing_id()

источник

11:24пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Но это не сквозной индекс

источник

11:25пожаловаться #11

А

Алексей in Moscow Spark

monotonically_increasing_id есть в sql?

источник

11:26пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

А почему нет, обычная spark.sql.function)

источник

11:26пожаловаться #13

А

Алексей in Moscow Spark

тогда да, нет смысла в велосипеде

источник

11:27пожаловаться #14

AS

Andrey Smirnov in Moscow Spark

только будет быстрее, без группировки что будет в случае window

источник

12:04пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Монотоник работает по сути через оконку, только вместо 10000000 там 2^32 вроде

источник

12:05пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Если не нужен сквозной индекс, то скорость будет норм

источник

12:06пожаловаться #17

AS

Andrey Smirnov in Moscow Spark

вроде нет, он же просто считает кол-во партиций и пон им раскидывает
The current implementation
puts the partition ID in the upper 31 bits, and the lower 33 bits represent the record number
within each partition. The assumption is that the data frame has less than 1 billion
partitions, and each partition has less than 8 billion records.

источник

12:09пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

Ну а как ему номер ряда поставить, кроме как оконкой
Количество партиций ему пофигу как раз

источник

12:10пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

2^31, забыл уже всё😆

источник

12:11пожаловаться #20