Size: a a a

2019 October 10

A

Alex in Data Engineers
fuse это уровень трансляции и интерфейс со стороны ядра
с одной стороны он с кернел vfs взаимодействует
с другой в userspace реализация лежит того что нужно (hdfs, sshfs, restfs, и тд)

сейчас для fuse hdfs вроде даже нативную реализацию hdfs делали, для уменьшения оверхеда
а раньше запускался внутренний libjvm и молотило все в java коде
источник

A

Alex in Data Engineers
будет ли быстрее через fuse чем через nfs gateway зависит от того что и как вы собираетесь делать
так как fuse конечно открывает коннекты на датаноды напрямую, но вот вопрос реализации и поддержки открыт
источник

A

Alex in Data Engineers
источник

F

Flover in Data Engineers
спасибо большое, буду наверное через gateway. он уже с коробки есть
источник

A

Alex in Data Engineers
вопрос чатику:
кто-нибудь пользовался libhdfspp или нет?

тот же arrow для доступа к hdfs имеет 2 варианта:
1) libhdfs который запускат libjvm и дергает java код
2) libhdfspp с нативной реализацией протокола в плюсах

но чтобы кто-то с arrow напрямую к hdfs лез что-то не слышал =(
источник

GP

Grigory Pomadchin in Data Engineers
Alex
вопрос чатику:
кто-нибудь пользовался libhdfspp или нет?

тот же arrow для доступа к hdfs имеет 2 варианта:
1) libhdfs который запускат libjvm и дергает java код
2) libhdfspp с нативной реализацией протокола в плюсах

но чтобы кто-то с arrow напрямую к hdfs лез что-то не слышал =(
источник

K

KrivdaTheTriewe in Data Engineers
Alex
вопрос чатику:
кто-нибудь пользовался libhdfspp или нет?

тот же arrow для доступа к hdfs имеет 2 варианта:
1) libhdfs который запускат libjvm и дергает java код
2) libhdfspp с нативной реализацией протокола в плюсах

но чтобы кто-то с arrow напрямую к hdfs лез что-то не слышал =(
либхдфс юзал, нужно чтобы все переменные среды были определены нормально и тогда работает, но библиотека крайне скудна на функционал
источник

ЕГ

Евгений Глотов in Data Engineers
Alex
вопрос чатику:
кто-нибудь пользовался libhdfspp или нет?

тот же arrow для доступа к hdfs имеет 2 варианта:
1) libhdfs который запускат libjvm и дергает java код
2) libhdfspp с нативной реализацией протокола в плюсах

но чтобы кто-то с arrow напрямую к hdfs лез что-то не слышал =(
Использую pyarrow + libhdfs
источник

ЕГ

Евгений Глотов in Data Engineers
Потому что сишные либы libhdfs есть в поставке hdp, а всё остальное надо ставить через судо
источник

DM

Daniel Matveev in Data Engineers
@pomadchin сёр, плиз провайд ё экселент эрудишн

Ты ж наверняка пробовал/смотрел postgis? У него там свой кастомный индекс с персистом на диск?
источник

λ

λoλdog in Data Engineers
А у постгри все из коробки есть, че вообще даже постгис ?
источник

GP

Grigory Pomadchin in Data Engineers
Daniel Matveev
@pomadchin сёр, плиз провайд ё экселент эрудишн

Ты ж наверняка пробовал/смотрел postgis? У него там свой кастомный индекс с персистом на диск?
да, поверх р дерева
источник

GP

Grigory Pomadchin in Data Engineers
λoλdog
А у постгри все из коробки есть, че вообще даже постгис ?
поиск по вложению, пересечению, и т.п.
источник

GP

Grigory Pomadchin in Data Engineers
удобные функции просто
источник

GP

Grigory Pomadchin in Data Engineers
источник

DM

Daniel Matveev in Data Engineers
Grigory Pomadchin
да, поверх р дерева
гуд, спасибо, сёр
источник

λ

λoλdog in Data Engineers
Прикольно
источник

EA

Evgeny A in Data Engineers
вопрос чату
Как можно получить среднее время выполнения таски hive сервера по jmx (executing, compiling tasks... etc)?
источник

λ

λoλdog in Data Engineers
Можно взять dropwizard и вкрутить в таску
источник
2019 October 11

K

Kirill in Data Engineers
Есть в чате знатоки спарка? Вопрос - делаю leftsemi джойн двух датафремов и вижу что проиходит полный шафл правого датафрейма, хотя от него нужна только одна колонка. Т.е. по сути мне нужно сделать селект одной колонки правого датафрейма чтобы все было в разы быстрее. Почему catalyst такое не ловит? Есть ли ишью(я не нашел)?
источник