Size: a a a

2021 January 26

AA

Alibek Amangeldiyev in Data Engineers
Nick
А данные там есть или только заголовки показал? + для каждого столбца должен быть определён тип
Данные есть, показал первые 10 строк и стоблцов в виде датафрейма
источник

A

Alex in Data Engineers
Nikita Blagodarnyy
а federated hdfs как же?
Она в данный момент построена в виде вью на клиенте, костыль жестокий

Сервер бейз роутинг чтобы клиент один и рулило уже на сервер пилят уже хз сколько, вот в 3.2 он был совсем бета, в 3.3 вроде как бета чуть лучше
источник

K

KrivdaTheTriewe in Data Engineers
No Name
Ну, в принципе, смотря чем процессить, наверное. Насколько я знаю, тот же спарк очень болеет, если партиции крупные, там при шаффле спилл начинает зашкаливать
У нас партишн прунинг адекватно сейчас не работает
источник

K

KrivdaTheTriewe in Data Engineers
Непонятно почему , условно soark.read.parquet("").where('partition === "202010132") драйвер подыхает
источник

K

KrivdaTheTriewe in Data Engineers
Над вспоминать уже как там и что )
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
Непонятно почему , условно soark.read.parquet("").where('partition === "202010132") драйвер подыхает
так он же пойдет в NN узнавать как там че чтобы этот фильтр применить.
источник

IR

Ilkin Ramazanov in Data Engineers
ребят всем привет. Какие на сегодняшний день требования по скилам к junior data engineer ?
источник

N

Nikita Blagodarnyy in Data Engineers
если там дофига всего, так ему и будет плошать
источник

N

Nikita Blagodarnyy in Data Engineers
пиши spark.read.parquet(‘/cool/tele/2/partition=202010132‘)
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
так он же пойдет в NN узнавать как там че чтобы этот фильтр применить.
Ну да понятно,  оч надеялся , что эвристика есть уже
источник

K

KrivdaTheTriewe in Data Engineers
Потому что там явно ток лист директории нужен
источник

N

Nikita Blagodarnyy in Data Engineers
В 3 вроде завозили динамик портишон прунинг
источник

K

KrivdaTheTriewe in Data Engineers
Вот чот не работает
источник

K

KrivdaTheTriewe in Data Engineers
Но я пока не ковырял
источник

MB

Maksim Batsiuk in Data Engineers
добрый вечер. Задача по Hadoop: в hdfs есть каталог с политикой Erasure Coding и как написано в документации, внутри данного каталога нельзя использовать команду append(). Как в этом случае дописывать в уже имеющийся файл? Или может есть другой способ добавления информации в данный каталог? Просто информация в него будет добавляться малыми частями и создавать каждый раз новый файл, точно не вариант. Спасибо за ответы.
источник

AZ

Anton Zadorozhniy in Data Engineers
Maksim Batsiuk
добрый вечер. Задача по Hadoop: в hdfs есть каталог с политикой Erasure Coding и как написано в документации, внутри данного каталога нельзя использовать команду append(). Как в этом случае дописывать в уже имеющийся файл? Или может есть другой способ добавления информации в данный каталог? Просто информация в него будет добавляться малыми частями и создавать каждый раз новый файл, точно не вариант. Спасибо за ответы.
Append и в обычной репликации не нужен, пишите новый файл в директории и все
источник

MB

Maksim Batsiuk in Data Engineers
Anton Zadorozhniy
Append и в обычной репликации не нужен, пишите новый файл в директории и все
проблема в том, что данные читаются с кафки, в кафке очень много файлов, но они очень мелкие
источник

MB

Maksim Batsiuk in Data Engineers
если каждый раз создавать новый файл, тогда каталог просто забьётся тысячами файлом по 10МБ грубо говоря
источник

AZ

Anton Zadorozhniy in Data Engineers
Maksim Batsiuk
проблема в том, что данные читаются с кафки, в кафке очень много файлов, но они очень мелкие
Append каждый раз создаёт вам новый блок, проблема мелких блоков не исчезает, это надо изначально по-другому делать
источник

MB

Maksim Batsiuk in Data Engineers
если дописывать в уже имеющийся файл, то это лишь фикция, на деле все равно много кусков, так?
источник