Size: a a a

2019 July 10

A

Alexander in Data Engineers
А если бы был один, то не было бы параллелизма или вообще бы не работало?
источник

AB

Andrei Boaghe in Data Engineers
Alexander
А можно вопрос: зачем новый продюсер на каждую партицую?
Если честно, то потому что выкидывало ексепшн: Task not serializable java.io.NotSerializableException
источник

AB

Andrei Boaghe in Data Engineers
т.е. ещё и фича: типа распаралелил
источник

A

Alexander in Data Engineers
понял, спасибо
источник

A

Alex in Data Engineers
@KickerMario основной код выполняется на драйвере, соответвенно если вы его создадите там, а потом используете в блоке перпартишен, то значит его нужно сериализовать, передать на воркер, десериализовать и использовать

Но так как он держит коннекты на саму кафку, то логично что нельзя так просто с ним обращать :) где создал там и используй
источник

A

Alex in Data Engineers
Лямбда в перпартишен сериализуется и выполняется на воркерах
источник

GP

Grigory Pomadchin in Data Engineers
Alexander
А можно вопрос: зачем новый продюсер на каждую партицую?
не сериализуются продюсеры
источник

A

Alexander in Data Engineers
исчерпывающе, спасибо)
источник

MB

Mikhail Butalin in Data Engineers
/apps/hbase/data/.hbck можно очистить без последствий? как правильно?
источник

PA

Polina Azarova in Data Engineers
HeapSize для Namenode, Datanode и JournalNode (всего hdfs-ового) задаётся в hadoop-env.sh в HADOOP_HEAPSIZE. Получается, если я выставляю большой хип для NN, то JN, установленный на ту же тачку также получает maxHeap как и у неймноды.
Пока есть идея только в OPTS прибить флажками минимальный размер хипа для JN поменьше
1. Есть нормальные идеи, как это исправить?)
2. И вообще, сколько нужно оперативы под журнал?
3. И чисто ради интереса, что будет, если к одному процессу дважды указать Xmx разного размера? Какой из них он возьмёт? 😂
источник

A

Alex in Data Engineers
Как разворачиваете?
источник

A

Alex in Data Engineers
Клоудера под каждый сервис на каждом рестарте создаёт папку с конфигами и указывает использовать конкретному сервису именно её
источник

VZ

Vitali Z in Data Engineers
export HADOOP_NAMENODE_OPTS="-Xmx8192m $HADOOP_NAMENODE_OPTS"
источник

PA

Polina Azarova in Data Engineers
ваниль
источник

A

Alex in Data Engineers
У амбари насколько помню так же можнл
источник

PA

Polina Azarova in Data Engineers
Vitali Z
export HADOOP_NAMENODE_OPTS="-Xmx8192m $HADOOP_NAMENODE_OPTS"
если я так напишу, то он возьмёт HADOOP_HEAPSIZE и добавит туда 8192
источник

PA

Polina Azarova in Data Engineers
то есть будет два Xmx флажка
источник

A

Alex in Data Engineers
Вариант ещё что Виталий кинул: не использовать хипсайз напрямую, но использовать специфические опции для каждого сервиса
источник

A

Alex in Data Engineers
Выиграет последний ;)
источник

PA

Polina Azarova in Data Engineers
но это не точно?)
источник