Телеграмм чат группы hadoopusers страница 3176

Size: a a a

Data Engineers

2235 membersпожаловаться на группу

2021 January 26

Alibek Amangeldiyev in Data Engineers

Nick

А данные там есть или только заголовки показал? + для каждого столбца должен быть определён тип

Данные есть, показал первые 10 строк и стоблцов в виде датафрейма

источник

21:40пожаловаться #1

Alex in Data Engineers

Nikita Blagodarnyy

а federated hdfs как же?

Она в данный момент построена в виде вью на клиенте, костыль жестокий

Сервер бейз роутинг чтобы клиент один и рулило уже на сервер пилят уже хз сколько, вот в 3.2 он был совсем бета, в 3.3 вроде как бета чуть лучше

источник

21:43пожаловаться #2

KrivdaTheTriewe in Data Engineers

No Name

Ну, в принципе, смотря чем процессить, наверное. Насколько я знаю, тот же спарк очень болеет, если партиции крупные, там при шаффле спилл начинает зашкаливать

У нас партишн прунинг адекватно сейчас не работает

источник

21:45пожаловаться #3

KrivdaTheTriewe in Data Engineers

Непонятно почему , условно soark.read.parquet("").where('partition === "202010132") драйвер подыхает

источник

21:46пожаловаться #4

KrivdaTheTriewe in Data Engineers

Над вспоминать уже как там и что )

источник

21:47пожаловаться #5

Nikita Blagodarnyy in Data Engineers

KrivdaTheTriewe

Непонятно почему , условно soark.read.parquet("").where('partition === "202010132") драйвер подыхает

так он же пойдет в NN узнавать как там че чтобы этот фильтр применить.

источник

21:52пожаловаться #6

Ilkin Ramazanov in Data Engineers

ребят всем привет. Какие на сегодняшний день требования по скилам к junior data engineer ?

источник

21:52пожаловаться #7

Nikita Blagodarnyy in Data Engineers

если там дофига всего, так ему и будет плошать

источник

21:52пожаловаться #8

Nikita Blagodarnyy in Data Engineers

пиши spark.read.parquet(‘/cool/tele/2/partition=202010132‘)

источник

21:56пожаловаться #9

KrivdaTheTriewe in Data Engineers

Nikita Blagodarnyy

так он же пойдет в NN узнавать как там че чтобы этот фильтр применить.

Ну да понятно, оч надеялся , что эвристика есть уже

источник

21:59пожаловаться #10

KrivdaTheTriewe in Data Engineers

Потому что там явно ток лист директории нужен

источник

21:59пожаловаться #11

Nikita Blagodarnyy in Data Engineers

В 3 вроде завозили динамик портишон прунинг

источник

22:00пожаловаться #12

KrivdaTheTriewe in Data Engineers

Вот чот не работает

источник

22:01пожаловаться #13

KrivdaTheTriewe in Data Engineers

Но я пока не ковырял

источник

22:01пожаловаться #14

Maksim Batsiuk in Data Engineers

добрый вечер. Задача по Hadoop: в hdfs есть каталог с политикой Erasure Coding и как написано в документации, внутри данного каталога нельзя использовать команду append(). Как в этом случае дописывать в уже имеющийся файл? Или может есть другой способ добавления информации в данный каталог? Просто информация в него будет добавляться малыми частями и создавать каждый раз новый файл, точно не вариант. Спасибо за ответы.

источник

23:06пожаловаться #15

Anton Zadorozhniy in Data Engineers

Maksim Batsiuk

Append и в обычной репликации не нужен, пишите новый файл в директории и все

источник

23:13пожаловаться #16

Maksim Batsiuk in Data Engineers

Anton Zadorozhniy

Append и в обычной репликации не нужен, пишите новый файл в директории и все

проблема в том, что данные читаются с кафки, в кафке очень много файлов, но они очень мелкие

источник

23:16пожаловаться #17

Maksim Batsiuk in Data Engineers

если каждый раз создавать новый файл, тогда каталог просто забьётся тысячами файлом по 10МБ грубо говоря

источник

23:17пожаловаться #18

Anton Zadorozhniy in Data Engineers

Maksim Batsiuk

проблема в том, что данные читаются с кафки, в кафке очень много файлов, но они очень мелкие

Append каждый раз создаёт вам новый блок, проблема мелких блоков не исчезает, это надо изначально по-другому делать

источник

23:17пожаловаться #19

Maksim Batsiuk in Data Engineers

если дописывать в уже имеющийся файл, то это лишь фикция, на деле все равно много кусков, так?

источник

23:19пожаловаться #20