Size: a a a

2021 November 29

АА

Артем Анистратов... in Moscow Spark
Тут круче, сначала создаются две сессии, одна получает данные из оракла, немного преобразует, сохраняет в паркет и закрывается. Потом создается вторая забирает данные из хдфс, снова немного преобразует, сохраняет паркетник, сессия закрывается. После чего создается новая сессия, паркетники читаются в tempview и уже sql запросом джоинятся, результат сохраняют в паркетник, сессия закрыта.
источник

АА

Артем Анистратов... in Moscow Spark
К счастью нет)
источник

АА

Артем Анистратов... in Moscow Spark
Вообще я изначально подумал, что все приседания для того, что бы избежать таймаута по возведению py4j сервака(или как он правильно называется)
источник

k

kvadratura in Moscow Spark
это еще ничего. я из предыдущего сообщения подумал, что все через путон-дикт соединяется. создавать сессию несколько раз обычно не за чем, но если так, как сейчас сделано работает на норм обьемах данных, можно и не трогать
источник

АА

Артем Анистратов... in Moscow Spark
Ну по классике "работает- не трогай")
источник

k

kvadratura in Moscow Spark
не совсем. адище стоит переписывать, даже если работает. нужно стараться делать мир немножко лучше
источник

k

kvadratura in Moscow Spark
просто судя по этому описанию, это - не адище. через дикты было бы уже слишком
источник

R

R in Moscow Spark
Я выше кидал ссылку на код + @SparkApplicationMaster кидал свой вариант через monotonically_increasing_id
источник

R

R in Moscow Spark
А так наверное должно, надо смотреть планы, но я не вижу особых преимуществ именно у этого подхода.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это примерно то же самое, что и monotonically_increasing_id()
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но это не сквозной индекс
источник

А

Алексей in Moscow Spark
monotonically_increasing_id есть в sql?
источник

ЕГ

Евгений Глотов... in Moscow Spark
А почему нет, обычная spark.sql.function)
источник

А

Алексей in Moscow Spark
тогда да, нет смысла в велосипеде
источник

AS

Andrey Smirnov in Moscow Spark
только будет быстрее, без группировки что будет в случае window
источник

ЕГ

Евгений Глотов... in Moscow Spark
Монотоник работает по сути через оконку, только вместо 10000000 там 2^32 вроде
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если не нужен сквозной индекс, то скорость будет норм
источник

AS

Andrey Smirnov in Moscow Spark
вроде нет, он же просто считает кол-во партиций и пон им раскидывает
The current implementation
     puts the partition ID in the upper 31 bits, and the lower 33 bits represent the record number
     within each partition. The assumption is that the data frame has less than 1 billion
     partitions, and each partition has less than 8 billion records.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну а как ему номер ряда поставить, кроме как оконкой
Количество партиций ему пофигу как раз
источник

ЕГ

Евгений Глотов... in Moscow Spark
2^31, забыл уже всё😆
источник