Телеграмм чат группы hadoopusers страница 1828

12:25пожаловаться #1

Daniel Matveev in Data Engineers

Кто-нибудь присматривался к TileDB? Наткнулся на весьма общее описание идеи от разрабов, но интересны мнения с другой стороны.

16:06пожаловаться #2

Всем привет! А не могли бы Вы помочь с настройкой кластера флинка? Он сейчас выпадает по невполне ясным ошибкам и я хз, как это исправляется. Вот сама ошибка:

17:38пожаловаться #3

Caused by: java.lang.RuntimeException: org.apache.flink.util.FlinkException: Could not retrieve submitted JobGraph from state handle under /37de668d8aeb35d671ea5a9e3c030ce7. This indicates that the retrieved state handle is broken. Try cleaning the state handle store.
Caused by: org.apache.flink.util.FlinkException: Could not retrieve submitted JobGraph from state handle under /37de668d8aeb35d671ea5a9e3c030ce7. This indicates that the retrieved state handle is broken. Try cleaning the state handle store.
Caused by: java.io.FileNotFoundException: /mnt/flink/recovery/submittedJobGraphc960a482e538 (No such file or directory)

17:38пожаловаться #4

Вот конфиг флинка:

blob.server.port: 6124

env.java.opts: -XX:+HeapDumpOnOutOfMemoryError

#jobmanager.rpc.address: jobmanager
jobmanager.rpc.port: 6123

jobmanager.heap.size: 6000m
taskmanager.heap.size: 8000m
taskmanager.rpc.port: 6122
taskmanager.memory.size: 10000

taskmanager.numberOfTaskSlots: 4
task.cancellation-interval: 3000000

rest.idleness-timeout: 3000000
slot.request.timeout: 9000000
heartbeat.timeout: 1000000
web.timeout: 120000

high-availability: zookeeper
high-availability.jobmanager.port: 6123
high-availability.zookeeper.quorum: zookeeper-0.zookeeper-headless:2181,zookeeper-1.zookeeper-headless:2181,zookeeper-2.zookeeper-headless:2181
high-availability.zookeeper.path.root: /flink
high-availability.cluster-id: /tsp_{{ .Values.urlScheme.project }}
high-availability.storageDir: /mnt/flink/recovery

zookeeper.sasl.disable: true

17:39пожаловаться #5

@igor_dia я правильно понимаю вашу ситуацию:

у вас есть джоб менеджеры (2+)
настроен ha
один зафейлился
второй подняться не может

18:19пожаловаться #6

Alex

правильно. 3 джобменеджера, и ложится весь кластер

18:22пожаловаться #7

следующий вопрос:

куда указывает /mnt/flink/recovery ?

18:23пожаловаться #8

содержимое этой папки шарится между всеми джобменеджерами или у каждого своё?

18:23пожаловаться #9

Alex

следующий вопрос:

куда указывает /mnt/flink/recovery ?

в emptyDir куберовский

18:23пожаловаться #10

Alex

содержимое этой папки шарится между всеми джобменеджерами или у каждого своё?

у каждого свое и при рестартах эти данные не должны теряться, если верить доке на кубер

18:24пожаловаться #11

тогда может стоит пройти читать документацию? =)

18:24пожаловаться #12

Storage directory (required): JobManager metadata is persisted in the file system storageDir and only a pointer to this state is stored in ZooKeeper.

high-availability.storageDir: hdfs:///flink/recovery

The storageDir stores all metadata needed to recover a JobManager failure.

18:24пожаловаться #13

именно поэтому в примерах и указывается на hdfs чтобы любой мог прочитать и востановиться

18:25пожаловаться #14

то есть она общая должна быть для всех?

18:25пожаловаться #15