Телеграмм чат группы hadoopusers страница 1454

привет! помогите разобраться. Не получается писать spark job'ой в hbase на кластере hdp 2.6.1.0. При этом сама джоба на кластере в майл облаке пишет. ошибки такие

The node /hbase is not in ZooKeeper. It should have been written by the master. Check the value configured in 'zookeeper.znode.parent'. There could be a mismatch with the one configured in the master.

но перед этим есть сообщение INFO ZooKeeperRegistry: ClusterId read in ZooKeeper is null

источник

09:23пожаловаться #10

Rustam Iksanov in Data Engineers

версии hbase 1.1.2.2.6.4.0-91 ( там где не пишется), 1.1.2.2.6.5.1100-53( работает запись). для записи используется shc-core-1.1.2-2.3-s_2.11-SNAPSHOT.jar

источник

09:36пожаловаться #11

Dumitru Preguza in Data Engineers

Stanislav

А откуда вот эти 10 секунд?)
Из хайва стриминг - очень странно) гонять фулсканы ради дифов

не важно сколько секунд, но если нам надо будет контролировать скорость как это сделать ?
нам нужно каждые Х сообщений в Kafka сделать delay

источник

10:06пожаловаться #12

Oleg in Data Engineers

Dumitru Preguza

както так может сработать
partNum = 10;
rddWith1000eles
.coalesce(partNum)
.mapPartitions(part => {
// do send stuff
return part.size();
})
.collect()
.map(r -> {
Thread.sleep(Math.round(10000 / partNum));
})

источник

11:07пожаловаться #13

Dumitru Preguza in Data Engineers

Oleg

да спс, что то похожее и мы написали, мб есть какие нибудь конфигурации что бы не писать велосипед

источник

11:11пожаловаться #14

Oleg in Data Engineers

в чем велосипед, вам нужно реализовать логику, вы ее реализуете, хоть она и странная

источник

11:12пожаловаться #15

Oleg in Data Engineers

такое ощущение что вы в ногу себе стреляете

источник

11:13пожаловаться #16

Dumitru Preguza in Data Engineers

мб мб

источник

11:13пожаловаться #17

Alex in Data Engineers

Если нужно тротлить, то не проще ли это указать в кафка коннекторе?

источник

11:41пожаловаться #18

Alex in Data Engineers

Setting the max receiving rate - If the cluster resources is not large enough for the streaming application to process data as fast as it is being received, the receivers can be rate limited by setting a maximum rate limit in terms of records / sec. See the configuration parameters spark.streaming.receiver.maxRate for receivers and spark.streaming.kafka.maxRatePerPartition for Direct Kafka approach. In Spark 1.5, we have introduced a feature called backpressure that eliminate the need to set this rate limit, as Spark Streaming automatically figures out the rate limits and dynamically adjusts them if the processing conditions change. This backpressure can be enabled by setting the configuration parameter
spark.streaming.backpressure.enabled to true.

источник

11:44пожаловаться #19

Alex in Data Engineers

В итоге делаешь с одной стороны размер итерации-батча 60 секунд

Следом тротлинг на нужное количество элемпнтов

источник

11:45пожаловаться #20