Size: a a a

2021 March 03

N

Nikita Blagodarnyy in Data Engineers
А какой gc?
источник

AM

Alexandr Myshansky in Data Engineers
А вопрос хороший, практический все инфраструктурные настройки для меня скрыты и этим вопросом я раньше не задавался и хватало оптимизации самих запросов и udf-ок. В Spark UI я так понимаю этих настроек не видно (ну либо они не отображаются т.к. там все по дефолту)
источник

e

er@essbase.ru in Data Engineers
Скажите пж. если использовать hive internal table для долговременного хранения , то будет ли hive управлять размерами файлов и оптимально их создавать согласно размеру блока ?
источник

AM

Alexandr Myshansky in Data Engineers
А сами файлы таблиц - orc? На сколько я помню дефолтный размер блока orc (250Мб) больше дефолтного размера блока HDFS (128 Мб)
источник

AM

Alexandr Myshansky in Data Engineers
а так да, разбивать будет, единственно что для больших таблиц лучше тюнить размер блока orc, у меня при достижении ~4к блоков вычитка занимала где-то пол часа, когда смерджили блоки orc время упало до 6-8 мин
источник

R

Roman in Data Engineers
er@essbase.ru
Скажите пж. если использовать hive internal table для долговременного хранения , то будет ли hive управлять размерами файлов и оптимально их создавать согласно размеру блока ?
В общем случае - нет, не будет. Если вы криво будет их создавать, то файлы могут быть очень маленькими. Или у вас будет ETL процесс, который плодит много файлов. Например, вы укажиет большое количество бакетов по ключу, а данных у вас суммарно мало, тогда размажется на много маленьких файлов и много других кейсов.

Есть найтройки, которые позволяют мержить очень маленькие файлы. Но это не особо спасает.

Вот немного инфо:
https://community.cloudera.com/t5/Community-Articles/ORC-Creation-Best-Practices/ta-p/248963
источник

NN

No Name in Data Engineers
K S
В пределах одного этапа несложно, однако нужно как то хранить состояние каждого из этапов (промежуточные данные, статусы и т.д.), чтобы если следующие этапы не могут завершиться, то процесс знает с какой точки возобновить обработку и с какими промежуточными данными.
Ну если хочется транзакций и роллбэков, то мб delta? Или не спарк?
источник

K

KrivdaTheTriewe in Data Engineers
@dartov https://issues.apache.org/jira/browse/SPARK-27495 смотрите что сделали
источник

AZ

Anton Zadorozhniy in Data Engineers
да, я следил в прошлом году за прогрессом по этому делу
источник

K

KrivdaTheTriewe in Data Engineers
In Spark 3.0 and below, SparkContext can be created in executors. Since Spark 3.1, an exception will be thrown when creating SparkContext in executors. You can allow it by setting the configuration spark.executor.allowSparkContext when creating SparkContext in executors.
источник

R

Roman in Data Engineers
KrivdaTheTriewe
In Spark 3.0 and below, SparkContext can be created in executors. Since Spark 3.1, an exception will be thrown when creating SparkContext in executors. You can allow it by setting the configuration spark.executor.allowSparkContext when creating SparkContext in executors.
Я правильно понимаю, что кто - то создаёт spark context на экзекьютерах в рамках текущей сессии? А кто - нибудь знает кейс когда это может потребоваться...интересно очень
источник

GP

Grigory Pomadchin in Data Engineers
Alex
А что сразу косой?

Может я как и хрыч просто жадный и умею грязь находить
там ж крутой) а не косой (там сообщение без иронии)
источник

NN

No Name in Data Engineers
О, прикольно
источник

NN

No Name in Data Engineers
Интересно, они раньше каталист научат динамически определять утилизацию и конфигурировать, или глубокую ручную кастомизацию впилят?
источник

A

Alex in Data Engineers
Там в 3.0 часть из adaptive уже завезли
источник

K

KrivdaTheTriewe in Data Engineers
No Name
Интересно, они раньше каталист научат динамически определять утилизацию и конфигурировать, или глубокую ручную кастомизацию впилят?
там в кипе описано, что хотят
источник

K

KrivdaTheTriewe in Data Engineers
Alex
Там в 3.0 часть из adaptive уже завезли
что за адаптив
источник

A

Alex in Data Engineers
Реврайт плана исходя из состояния предыдущего стейджа
источник

N

Nikita Blagodarnyy in Data Engineers
говорят, даже скью умеет находить и распироживать на части.
источник

NN

No Name in Data Engineers
Nikita Blagodarnyy
говорят, даже скью умеет находить и распироживать на части.
Э, стоп, мы так не нужны будем скоро, остановитесь
источник