Size: a a a

2021 January 18

t

tenKe in Data Engineers
Sergey Sheremeta
а я даже написал скриптец

hdfs dfs -ls -R /dannie/sosi/bibu | grep -v '^drwx' | tr -s " " | cut -d' ' -f8 | sed -r «s#/dannie/(.*)/(.*)/year=(.*)/month=(.*)/day=(.*)#hdfs dfs -mv \0 /dannie/action=\1/object=\2/dt=\3-\4-\5#g" > mv_commands.sh

вот только в нем сотни тысяч «hdfs dfs -mv» - и это капец как медленно работает
скалкой/питоном -  и там и там апи хдфс простое
источник

SS

Sergey Sheremeta in Data Engineers
tenKe
скалкой/питоном -  и там и там апи хдфс простое
так это же программировать надо уметь, а я только bash for dummies прочитал
источник

t

tenKe in Data Engineers
Sergey Sheremeta
так это же программировать надо уметь, а я только bash for dummies прочитал
не, не нужн. Я специально написал, что там ну очень все просто
источник
2021 January 19

A

Alex in Data Engineers
Sergey Sheremeta
так это же программировать надо уметь, а я только bash for dummies прочитал
Ну я бы мог посоветовать конечно java/scala, так как по бинарному протоколу там только работа с метеданными на неймноде будет, несколько тысяч операций в секунду, что заметно быстрее чем с bash дёргать hdfs и на каждую команду jvm запускать
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
у всех бывают факапы ….
источник

S

Stanislav in Data Engineers
Alex
Ну я бы мог посоветовать конечно java/scala, так как по бинарному протоколу там только работа с метеданными на неймноде будет, несколько тысяч операций в секунду, что заметно быстрее чем с bash дёргать hdfs и на каждую команду jvm запускать
кто там недавно про го в бигдате говорил )
https://github.com/colinmarc/hdfs для скриптов заходит очень хорошо
те же операции копирования мелких файлов - по размеру канала, а не стартов/стопов жвм
источник

S

Stanislav in Data Engineers
смешно
источник

A

Alex in Data Engineers
Stanislav
кто там недавно про го в бигдате говорил )
https://github.com/colinmarc/hdfs для скриптов заходит очень хорошо
те же операции копирования мелких файлов - по размеру канала, а не стартов/стопов жвм
вопрос со стартом приложения и установкой соединения (особенно если там всё за керберосом) остаётся
источник

A

Alex in Data Engineers
kerberos + ha (сходить в зукипер)
и даже go будет тупить на десятках тысяч приложений
источник

A

Alex in Data Engineers
но вообще если они реализовали бинарный протокол, то это хорошо
источник

S

Stanislav in Data Engineers
я бенчил скорость полки на 50 дисков как ноды хадупа потоков в 20 на этом клиенте
честно сожрал всю шину
десятки тысяч - кто ж не будет тупить :)
источник

A

Alex in Data Engineers
нет, тут именно вопрос что переместить файл из одной локации в другу это 1 запрос в неймноду
работы с датанодами нету
отработать должно быстро

потом ещё один запрос туда же и тд

стоимость этого запроса ниже чем стоимость установки соединения и прохода всех этапов авторизации
в statefull соединении прогнать это же количество запросов окажется проще
источник

A

Alex in Data Engineers
а на каком хадупе вы тестировали, просто вижу

This library uses "Version 9" of the HDFS protocol, which means it should work with hadoop distributions based on 2.2.x and above. The tests run against CDH 5.x and HDP 2.x.

у них ещё hdfs 2.6 было
в 2.7+ там в пару местах в протошке поменяли int на long, что поломало бинарную совместимость, хотя на уровне java api они оставили как есть
источник

S

Stanislav in Data Engineers
Alex
а на каком хадупе вы тестировали, просто вижу

This library uses "Version 9" of the HDFS protocol, which means it should work with hadoop distributions based on 2.2.x and above. The tests run against CDH 5.x and HDP 2.x.

у них ещё hdfs 2.6 было
в 2.7+ там в пару местах в протошке поменяли int на long, что поломало бинарную совместимость, хотя на уровне java api они оставили как есть
на ваниле 3 какой-то
источник

ПФ

Паша Финкельштейн... in Data Engineers
Alex
у всех бывают факапы ….
Мы же писали с @pomadchin что они случайно выложили
источник

A

Alex in Data Engineers
Извиняюсь, не видел
источник

A

Alex in Data Engineers
Но вообще всякое бывает, если я правильно помню в каком порядке там релиз проходит
источник

A

Alex in Data Engineers
Меня больше удивило было другое, сейчас найду
источник

ПФ

Паша Финкельштейн... in Data Engineers
Alex
Извиняюсь, не видел
Ну извиняться не за что, я просто немножко поржал тогда с переписки в мейлинг листе
источник