Телеграмм чат группы hadoopusers страница 3308

Size: a a a

Data Engineers

2331 membersпожаловаться на группу

2021 March 03

Nikita Blagodarnyy in Data Engineers

А какой gc?

источник

11:47пожаловаться #1

Alexandr Myshansky in Data Engineers

А вопрос хороший, практический все инфраструктурные настройки для меня скрыты и этим вопросом я раньше не задавался и хватало оптимизации самих запросов и udf-ок. В Spark UI я так понимаю этих настроек не видно (ну либо они не отображаются т.к. там все по дефолту)

источник

11:56пожаловаться #2

er@essbase.ru in Data Engineers

Скажите пж. если использовать hive internal table для долговременного хранения , то будет ли hive управлять размерами файлов и оптимально их создавать согласно размеру блока ?

источник

12:12пожаловаться #3

Alexandr Myshansky in Data Engineers

А сами файлы таблиц - orc? На сколько я помню дефолтный размер блока orc (250Мб) больше дефолтного размера блока HDFS (128 Мб)

источник

12:29пожаловаться #4

Alexandr Myshansky in Data Engineers

а так да, разбивать будет, единственно что для больших таблиц лучше тюнить размер блока orc, у меня при достижении ~4к блоков вычитка занимала где-то пол часа, когда смерджили блоки orc время упало до 6-8 мин

источник

12:34пожаловаться #5

Roman in Data Engineers

er@essbase.ru

В общем случае - нет, не будет. Если вы криво будет их создавать, то файлы могут быть очень маленькими. Или у вас будет ETL процесс, который плодит много файлов. Например, вы укажиет большое количество бакетов по ключу, а данных у вас суммарно мало, тогда размажется на много маленьких файлов и много других кейсов.

Есть найтройки, которые позволяют мержить очень маленькие файлы. Но это не особо спасает.

Вот немного инфо:
https://community.cloudera.com/t5/Community-Articles/ORC-Creation-Best-Practices/ta-p/248963

Cloudera

ORC Creation Best Practices

Synopsis. ORC is a columnar storage format for Hive. This document is to explain how creation of ORC data files can improve read/scan performance when querying the data. TEZ execution engine provides different ways to optimize the query, but it will do the best with correctly created ORC files. ORC ...

источник

12:47пожаловаться #6

No Name in Data Engineers

K S

В пределах одного этапа несложно, однако нужно как то хранить состояние каждого из этапов (промежуточные данные, статусы и т.д.), чтобы если следующие этапы не могут завершиться, то процесс знает с какой точки возобновить обработку и с какими промежуточными данными.

Ну если хочется транзакций и роллбэков, то мб delta? Или не спарк?

источник

13:32пожаловаться #7

KrivdaTheTriewe in Data Engineers

@dartov https://issues.apache.org/jira/browse/SPARK-27495 смотрите что сделали

источник

13:55пожаловаться #8

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

@dartov https://issues.apache.org/jira/browse/SPARK-27495 смотрите что сделали

да, я следил в прошлом году за прогрессом по этому делу

источник

14:00пожаловаться #9

KrivdaTheTriewe in Data Engineers

In Spark 3.0 and below, SparkContext can be created in executors. Since Spark 3.1, an exception will be thrown when creating SparkContext in executors. You can allow it by setting the configuration spark.executor.allowSparkContext when creating SparkContext in executors.

источник

14:11пожаловаться #10

Roman in Data Engineers

KrivdaTheTriewe

Я правильно понимаю, что кто - то создаёт spark context на экзекьютерах в рамках текущей сессии? А кто - нибудь знает кейс когда это может потребоваться...интересно очень

источник

14:13пожаловаться #11

Grigory Pomadchin in Data Engineers

Alex

А что сразу косой?

Может я как и хрыч просто жадный и умею грязь находить

там ж крутой) а не косой (там сообщение без иронии)

источник

14:53пожаловаться #12

No Name in Data Engineers

KrivdaTheTriewe

@dartov https://issues.apache.org/jira/browse/SPARK-27495 смотрите что сделали

О, прикольно