Телеграмм чат группы hadoopusers страница 1441

@KickerMario основной код выполняется на драйвере, соответвенно если вы его создадите там, а потом используете в блоке перпартишен, то значит его нужно сериализовать, передать на воркер, десериализовать и использовать

Но так как он держит коннекты на саму кафку, то логично что нельзя так просто с ним обращать :) где создал там и используй

источник

17:04пожаловаться #5

Alex in Data Engineers

Лямбда в перпартишен сериализуется и выполняется на воркерах

источник

17:05пожаловаться #6

Grigory Pomadchin in Data Engineers

Alexander

А можно вопрос: зачем новый продюсер на каждую партицую?

не сериализуются продюсеры

источник

17:14пожаловаться #7

Alexander in Data Engineers

исчерпывающе, спасибо)

источник

17:16пожаловаться #8

Mikhail Butalin in Data Engineers

/apps/hbase/data/.hbck можно очистить без последствий? как правильно?

источник

18:25пожаловаться #9

Polina Azarova in Data Engineers

HeapSize для Namenode, Datanode и JournalNode (всего hdfs-ового) задаётся в hadoop-env.sh в HADOOP_HEAPSIZE. Получается, если я выставляю большой хип для NN, то JN, установленный на ту же тачку также получает maxHeap как и у неймноды.
Пока есть идея только в OPTS прибить флажками минимальный размер хипа для JN поменьше
1. Есть нормальные идеи, как это исправить?)
2. И вообще, сколько нужно оперативы под журнал?
3. И чисто ради интереса, что будет, если к одному процессу дважды указать Xmx разного размера? Какой из них он возьмёт? 😂

источник

18:48пожаловаться #10

Alex in Data Engineers

Как разворачиваете?

источник

18:55пожаловаться #11

Alex in Data Engineers

Клоудера под каждый сервис на каждом рестарте создаёт папку с конфигами и указывает использовать конкретному сервису именно её

источник

18:55пожаловаться #12

Vitali Z in Data Engineers

export HADOOP_NAMENODE_OPTS="-Xmx8192m $HADOOP_NAMENODE_OPTS"