Size: a a a

2019 May 28

VE

Vladimir E. in Data Engineers
Суть в чём:
hdfs://sandbox-hdp.hortonworks.com:8020" - это правильно

Там алгоритм такой:
1. Java client конектится к неймноде по 8020 и спрашивает куда записывать данные
2. Неймнода смотрит на свои ноды и даёт айпи одной из датанод куда писать (или хостнейм, зависит от настроек)
3. Java client принимает айпи (или хостнейм) и пытается записать данные. НО, так как у тебя это всё в докере, неймнода думает что айпи дата ноды это 127.0.01
источник

AB

Andrey Bel in Data Engineers
понял, пробую испрвить
источник

AB

Andrey Bel in Data Engineers
10.1.*.*  localhost sandbox-hdp.hortonworks.com sandbox-hdf
источник

VE

Vladimir E. in Data Engineers
и в итоге клиент пытается законектится на локалхост, вместо того чтобы на сам сервис в ноде
источник

VE

Vladimir E. in Data Engineers
источник

VE

Vladimir E. in Data Engineers
Это настройка которая показывает что использует неймнода, айпишники или хостнеймы
источник

AB

Andrey Bel in Data Engineers
ок спасибо,проверяю
источник

VE

Vladimir E. in Data Engineers
Не помню уже какую магию там делал с хостсом, но это очень частая проблема с любой виртуалкой которая за НАТом или типа того
источник

VE

Vladimir E. in Data Engineers
в общем надо просто удостовериться что неймнода/датанода видит саму себя точно так же как и её видит клиент. Может быть 127.0.0.1 и нормально, главное удостовериться что от клиента 127.0.0.1:50011 ведёт именно к сервису датаноды а не в пустоту
источник

AB

Andrey Bel in Data Engineers
источник

AB

Andrey Bel in Data Engineers
чтото ничего не понятно
источник

ФЧ

Филипп Чистяков in Data Engineers
Ребят, а можно пару комментов по друиду, стоит смотреть в его сторону или нет?
источник

AS

Andrey Smirnov in Data Engineers
Филипп Чистяков
Ребят, а можно пару комментов по друиду, стоит смотреть в его сторону или нет?
была хорошая статья от однокласников на хабре, зависит от задач, в большинстве случаев можно обойтись кликхаусом
источник

ФЧ

Филипп Чистяков in Data Engineers
Спасибо. Погуглю
источник

R

Renarde in Data Engineers
всем привет!
вопрос такой - есть паркетная таблица:
create table db.table 
(...)
PARTITIONED BY(dt string)
BUCKETED BY (KEY) INTO 128 BUCKETS
SORTED BY (KEY)
делаю в нее:
df.insertInto("db.table")
Инзерт пролетает, но файлы внутри партиций неравномерного размера - от 100 до 300mb. Это так задумано, или где-то нужно форсировать repartition?
источник

OP

O. Petr in Data Engineers
пустую строку спарк цсв же не может прочитать ?
источник

OP

O. Petr in Data Engineers
единственное что нашел коммит 2х недельной давности https://github.com/apache/spark/commit/7a2d4895c75d4c232c377876b61c05a083eab3c8#diff-eb708fbebdf6d20d1ab1b109f5f2cd56
источник

OP

O. Petr in Data Engineers
типа на 2.3 нельзя вообще никак в csv для спарка пустую строку передать?
источник

K

KrivdaTheTriewe in Data Engineers
Renarde
всем привет!
вопрос такой - есть паркетная таблица:
create table db.table 
(...)
PARTITIONED BY(dt string)
BUCKETED BY (KEY) INTO 128 BUCKETS
SORTED BY (KEY)
делаю в нее:
df.insertInto("db.table")
Инзерт пролетает, но файлы внутри партиций неравномерного размера - от 100 до 300mb. Это так задумано, или где-то нужно форсировать repartition?
репартишн можно сделать по ключу какому
источник

VS

Vitaliy Shevchenko in Data Engineers
Всем привет. Может сталкивался кто, хочу курлом записать создать директорию в HDFS. Но выдает ошибку
Server IPC version 9 cannot communicate with client version 470
Куда копать ?
источник