Size: a a a

2019 November 29

K

KrivdaTheTriewe in Data Engineers
источник

DM

Daniel Matveev in Data Engineers
Кто-нибудь присматривался к TileDB? Наткнулся на весьма общее описание идеи от разрабов, но интересны мнения с другой стороны.
источник

I

Igor in Data Engineers
Всем привет! А не могли бы Вы помочь с настройкой кластера флинка? Он сейчас выпадает по невполне ясным ошибкам и я хз, как это исправляется. Вот сама ошибка:
источник

I

Igor in Data Engineers
Caused by: java.lang.RuntimeException: org.apache.flink.util.FlinkException: Could not retrieve submitted JobGraph from state handle under /37de668d8aeb35d671ea5a9e3c030ce7. This indicates that the retrieved state handle is broken. Try cleaning the state handle store.
Caused by: org.apache.flink.util.FlinkException: Could not retrieve submitted JobGraph from state handle under /37de668d8aeb35d671ea5a9e3c030ce7. This indicates that the retrieved state handle is broken. Try cleaning the state handle store.
Caused by: java.io.FileNotFoundException: /mnt/flink/recovery/submittedJobGraphc960a482e538 (No such file or directory)
источник

I

Igor in Data Engineers
Вот конфиг флинка:
blob.server.port: 6124

env.java.opts: -XX:+HeapDumpOnOutOfMemoryError

#jobmanager.rpc.address: jobmanager
jobmanager.rpc.port: 6123

jobmanager.heap.size: 6000m
taskmanager.heap.size: 8000m
taskmanager.rpc.port: 6122
taskmanager.memory.size: 10000

taskmanager.numberOfTaskSlots: 4
task.cancellation-interval: 3000000

rest.idleness-timeout: 3000000
slot.request.timeout: 9000000
heartbeat.timeout: 1000000
web.timeout: 120000

high-availability: zookeeper
high-availability.jobmanager.port: 6123
high-availability.zookeeper.quorum: zookeeper-0.zookeeper-headless:2181,zookeeper-1.zookeeper-headless:2181,zookeeper-2.zookeeper-headless:2181
high-availability.zookeeper.path.root: /flink
high-availability.cluster-id: /tsp_{{ .Values.urlScheme.project }}
high-availability.storageDir: /mnt/flink/recovery

zookeeper.sasl.disable: true
источник

A

Alex in Data Engineers
@igor_dia я правильно понимаю вашу ситуацию:

у вас есть джоб менеджеры (2+)
настроен ha
один зафейлился
второй подняться не может
источник

I

Igor in Data Engineers
Alex
@igor_dia я правильно понимаю вашу ситуацию:

у вас есть джоб менеджеры (2+)
настроен ha
один зафейлился
второй подняться не может
правильно. 3 джобменеджера, и ложится весь кластер
источник

A

Alex in Data Engineers
следующий вопрос:

куда указывает /mnt/flink/recovery ?
источник

A

Alex in Data Engineers
содержимое этой папки шарится между всеми джобменеджерами или у каждого своё?
источник

I

Igor in Data Engineers
Alex
следующий вопрос:

куда указывает /mnt/flink/recovery ?
в emptyDir куберовский
источник

I

Igor in Data Engineers
Alex
содержимое этой папки шарится между всеми джобменеджерами или у каждого своё?
у каждого свое и при рестартах эти данные не должны теряться, если верить доке на кубер
источник

A

Alex in Data Engineers
тогда может стоит пройти читать документацию? =)
источник

A

Alex in Data Engineers
Storage directory (required): JobManager metadata is persisted in the file system storageDir and only a pointer to this state is stored in ZooKeeper.

high-availability.storageDir: hdfs:///flink/recovery
 
The storageDir stores all metadata needed to recover a JobManager failure.
источник

A

Alex in Data Engineers
именно поэтому в примерах и указывается на hdfs чтобы любой мог прочитать и востановиться
источник

I

Igor in Data Engineers
то есть она общая должна быть для всех?
источник

A

Alex in Data Engineers
у вас же первый воркер записал
упал
второй узнал из зоокипера путь
пытается лезть, а там пусто
источник

A

Alex in Data Engineers
да
источник

I

Igor in Data Engineers
тогда по идее нфс сработать должна
источник

A

Alex in Data Engineers
ну можно и нфс попытаться, именно поэтому я и уточнил куда указывает
источник

I

Igor in Data Engineers
Alex
ну можно и нфс попытаться, именно поэтому я и уточнил куда указывает
спасибо. попробую
источник