Телеграмм чат группы hadoopusers страница 2977

Сжатие и сортировка данных в исходных файлах? Скорее всего их изрядно причесали прежде чем слить на диск(глянуть бы код которым их писали) А компактер при чтении-записи все данные взболтал репартишеном.

источник

22:23пожаловаться #6

SS

Sergey Sheremeta in Data Engineers

сжатия то же - снеппи

источник

22:23пожаловаться #7

SS

Sergey Sheremeta in Data Engineers

сортировку пробую повторить, спасибо!

источник

22:24пожаловаться #8

SS

Sergey Sheremeta in Data Engineers

я как-то могу вытащить эту информацию из метаданных паркет-файлов?

источник

22:25пожаловаться #9

I

Igor Master in Data Engineers

Увидел в пути bronze и вспомнил про bronze/silver/gold концепт, который мы стараемся имплементить. Можете кинуть, что почитать на эту тему. Какие данные в каком уровне хранятся, какие best practices...

источник

23:37пожаловаться #10

N

Nikita Blagodarnyy in Data Engineers

ну вот тут например есть
https://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html

Databricks

Productionizing Machine Learning with Delta Lake - Databricks Blog

Learn how to architect and build reliable machine learning data pipelines using Delta Lake.

источник

23:58пожаловаться #11

2020 November 25

S

Stanislav in Data Engineers

Sergey Sheremeta

сортировку пробую повторить, спасибо!

в колонках не получится вот так просто компактить
сортировка и правда дает очень приличное сжатие
поэтому надо лезть в дебри дф и повторять операции на выходе (что не всегда оправдано)

источник

10:27пожаловаться #12

K

Kate in Data Engineers

Всем привет! Сейчас планируем разворачивать Hadoop. Есть ли какие-то требования к томам на ОС? Как лучше оформить структуру файловой системы/директорий lдля NN и DN? Требования к месту?

источник

12:52пожаловаться #13

R

Rogoley in Data Engineers

Kate

Всем привет! Сейчас планируем разворачивать Hadoop. Есть ли какие-то требования к томам на ОС? Как лучше оформить структуру файловой системы/директорий lдля NN и DN? Требования к месту?

Сперва mindset админов нужно настроить.

источник

13:06пожаловаться #14

S

Stanislav in Data Engineers

Kate

Всем привет! Сейчас планируем разворачивать Hadoop. Есть ли какие-то требования к томам на ОС? Как лучше оформить структуру файловой системы/директорий lдля NN и DN? Требования к месту?

никак хадуп не умрет )
один том на один диск для датанод
все точки монтирования скормить в конфиг хадупу

источник

13:08пожаловаться #15

АЖ

Андрей Жуков... in Data Engineers

ну у клавудеры/хортона даже гайды неплохие есть

источник

13:14пожаловаться #16

N

Nikita Blagodarnyy in Data Engineers

Андрей Жуков

ну у клавудеры/хортона даже гайды неплохие есть

А у аренадаты.... Вообще изюм!

источник

13:17пожаловаться #17

SD

Serg D. in Data Engineers

Добрый день. Коллеги, прощу прощения за возможно банальный вопрос, но что означают «звездочки» в phisical plan спарка:
*(1) FileScan
*(2) Filter
*(2) Sort

Для всех типов операций она означает отдно и то же?

источник

13:25пожаловаться #18

N

Nikolay in Data Engineers

Serg D.

Добрый день. Коллеги, прощу прощения за возможно банальный вопрос, но что означают «звездочки» в phisical plan спарка:
*(1) FileScan
*(2) Filter
*(2) Sort

Для всех типов операций она означает отдно и то же?

* значит, что у вас spark.sql.codegen.wholeStage выставлен в true

источник

13:57пожаловаться #19

SD

Serg D. in Data Engineers

Nikolay

* значит, что у вас spark.sql.codegen.wholeStage выставлен в true

О, отлично, спасибо большое

источник

14:00пожаловаться #20