Телеграмм чат группы hadoopusers страница 4193

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 September 12

A

Alex in Data Engineers

Потому что баш кли на каждую команду подымал jvm с hadoop либами и создавал новое соединение

В python почти всегда это web hdfs rest и там свои заморочки. Есть конечно и подгрузка нативных либ, но оно так себе работало

Поэтому java api самое адекватное

источник

19:25пожаловаться #1

A

Alex in Data Engineers

Поднял соединение и загнал десятки тысяч команд за пару секунд

источник

19:26пожаловаться #2

ЕГ

Евгений Глотов... in Data Engineers

По идее pyarrow через c++ libhdfs работает

источник

19:26пожаловаться #3

A

Alex in Data Engineers

Хоть hdfs обходи, хоть ещё что делаешь

источник

19:26пожаловаться #4

A

Alex in Data Engineers

libhdfs внутри подымает libjvm.so и через jni java классы дёргает

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/LibHdfs.html

источник

19:28пожаловаться #5

ЕГ

Евгений Глотов... in Data Engineers

Ну это всё равно побыстрее должно быть, чем кли

источник

19:29пожаловаться #6

GP

Grigory Pomadchin in Data Engineers

ппц, а нативного нет клиента? вроде ж было что-то или я путаю

источник

19:29пожаловаться #7

A

Alex in Data Engineers

Там есть плюсовая реализация для нативного протокола

Плюс ещё одна из Apache hawq тоже сразу в hdfs протокол умеет

источник

19:29пожаловаться #8

A

Alex in Data Engineers

https://github.com/apache/hadoop/tree/trunk/hadoop-hdfs-project/hadoop-hdfs-native-client/src/main/native

hadoop/hadoop-hdfs-project/hadoop-hdfs-native-client/src/main/native at trunk · apache/hadoop

Apache Hadoop. Contribute to apache/hadoop development by creating an account on GitHub.

источник

19:30пожаловаться #9

A

Alex in Data Engineers

hdfspp

источник

19:31пожаловаться #10

A

Alex in Data Engineers

На плюсах что говорил

источник

19:31пожаловаться #11

A

Alex in Data Engineers

https://github.com/apache/hawq/tree/master/depends

hawq/depends at master · apache/hawq

Apache HAWQ. Contribute to apache/hawq development by creating an account on GitHub.

источник

19:32пожаловаться #12

A

Alex in Data Engineers

Ну и у hawq нативный клиент

Llibhdfs3
(тройка там всегда была, хотя третий хадуп добавили недавно)

источник

19:33пожаловаться #13

A

Alex in Data Engineers

libhdfs/libhdfspp/libhdfs3 все имеют разный апи, поэтому друг друга просто так не поменять

Arraw вроде под все имеет питон биндинги, но я не тестировал

источник

19:34пожаловаться #14

ЕГ

Евгений Глотов... in Data Engineers

Да там какая-то жопа, ещё хрен заведёшь это барахло без судо

источник

19:36пожаловаться #15

A

Alex in Data Engineers

Поэтому почти все питон клиенты по ресту ходят :)

источник

19:36пожаловаться #16

ЕГ

Евгений Глотов... in Data Engineers

В смысле webhdfs?

источник

20:02пожаловаться #17

ЕГ

Евгений Глотов... in Data Engineers

Он же тормозит

источник

20:02пожаловаться #18

Д

Дмитрий in Data Engineers

С pyspark можно работать тоже быстро если понимать что там биндинг к jvm. Но scala конечно проще и красивее всетапи это jvm.

источник

20:33пожаловаться #19

Д

Дмитрий in Data Engineers

Ну и hadoop, это все res api, там нативное libhadoop, нужен для работы только с локальными для ноды обьектами.

источник

20:35пожаловаться #20