Size: a a a

2020 November 24

GP

Grigory Pomadchin in Data Engineers
или не подошло / в чем проьлема?
источник

GP

Grigory Pomadchin in Data Engineers
ты более конкретные вещи напиши; тут специалистов по спарку целый чат
источник

TZ

Troll Zhuravlev in Data Engineers
>> ты более конкретные вещи напиши; тут специалистов по спарку целый чат

Детали в личке, фича нужна срочно и за деньги )
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки, поможите, а? почему после моего стильного и элегантного кода каталог с мелкими файлами не компактится, а пухнет?
источник

SS

Sergey Sheremeta in Data Engineers
это мне вглубь партишонера влезать надо?
источник

AN

Aleksey Nikolaev in Data Engineers
Sergey Sheremeta
дяденьки, поможите, а? почему после моего стильного и элегантного кода каталог с мелкими файлами не компактится, а пухнет?
Сжатие и сортировка данных в исходных файлах? Скорее всего их изрядно причесали прежде чем слить на диск(глянуть бы код которым их писали) А компактер при чтении-записи все данные взболтал репартишеном.
источник

SS

Sergey Sheremeta in Data Engineers
сжатия то же - снеппи
источник

SS

Sergey Sheremeta in Data Engineers
сортировку пробую повторить, спасибо!
источник

SS

Sergey Sheremeta in Data Engineers
я как-то могу вытащить эту информацию из метаданных паркет-файлов?
источник

Igor  Master in Data Engineers
Увидел в пути bronze и вспомнил про bronze/silver/gold концепт, который мы стараемся имплементить. Можете кинуть, что почитать на эту тему. Какие данные в каком уровне хранятся, какие best practices...
источник

N

Nikita Blagodarnyy in Data Engineers
источник
2020 November 25

S

Stanislav in Data Engineers
Sergey Sheremeta
сортировку пробую повторить, спасибо!
в колонках не получится вот так просто компактить
сортировка и правда дает очень приличное сжатие
поэтому надо лезть в дебри дф и повторять операции на выходе (что не всегда оправдано)
источник

K

Kate in Data Engineers
Всем привет! Сейчас планируем разворачивать Hadoop. Есть ли какие-то требования к томам на  ОС? Как лучше оформить структуру файловой системы/директорий lдля NN и DN? Требования к месту?
источник

R

Rogoley in Data Engineers
Kate
Всем привет! Сейчас планируем разворачивать Hadoop. Есть ли какие-то требования к томам на  ОС? Как лучше оформить структуру файловой системы/директорий lдля NN и DN? Требования к месту?
Сперва mindset админов нужно настроить.
источник

S

Stanislav in Data Engineers
Kate
Всем привет! Сейчас планируем разворачивать Hadoop. Есть ли какие-то требования к томам на  ОС? Как лучше оформить структуру файловой системы/директорий lдля NN и DN? Требования к месту?
никак хадуп не умрет )
один том на один диск для датанод
все точки монтирования скормить в конфиг хадупу
источник

АЖ

Андрей Жуков... in Data Engineers
ну у клавудеры/хортона даже гайды неплохие есть
источник

N

Nikita Blagodarnyy in Data Engineers
Андрей Жуков
ну у клавудеры/хортона даже гайды неплохие есть
А у аренадаты.... Вообще изюм!
источник

SD

Serg D. in Data Engineers
Добрый день. Коллеги, прощу прощения за возможно банальный вопрос, но что означают «звездочки» в phisical plan спарка:
*(1) FileScan
*(2) Filter
*(2) Sort

Для всех типов операций она означает отдно и то же?
источник

N

Nikolay in Data Engineers
Serg D.
Добрый день. Коллеги, прощу прощения за возможно банальный вопрос, но что означают «звездочки» в phisical plan спарка:
*(1) FileScan
*(2) Filter
*(2) Sort

Для всех типов операций она означает отдно и то же?
* значит, что у вас spark.sql.codegen.wholeStage выставлен в true
источник

SD

Serg D. in Data Engineers
Nikolay
* значит, что у вас spark.sql.codegen.wholeStage выставлен в true
О, отлично, спасибо большое
источник