Телеграмм чат группы hadoopusers страница 3178

но со временем может и 50 и 100 стать

23:45пожаловаться #1

целесообразно для каждого файла создавать отдельный поток?

23:46пожаловаться #2

Maksim Batsiuk

и вторая проблема, что мне нужно писать не в один файл, а в несколько, я даже не знаю со временем на сколько это количество может возрасти, там просто идёт парсинг входящего файла и по одному из полей создаётся каталог

Я не уверен что понимаю вашу проблему, писать разные файлы из одного приложения это вроде тривиальная задача

23:51пожаловаться #3

Anton Zadorozhniy

Я не уверен что понимаю вашу проблему, писать разные файлы из одного приложения это вроде тривиальная задача

тогда буду на практике пробовать, спасибо за советы, были полезные

23:52пожаловаться #4

Maksim Batsiuk

целесообразно для каждого файла создавать отдельный поток?

Это зависит от вашего стека и потока

23:54пожаловаться #5

2021 January 27

Maksim Batsiuk

тогда буду на практике пробовать, спасибо за советы, были полезные

Посмотрите как работает этот коннектор, какие параметры конфигурации позволяет задавать, мб послужит вдохновением для вас

00:07пожаловаться #6

https://docs.confluent.io/kafka-connect-hdfs3-sink/current/index.html

00:07пожаловаться #7

https://docs.confluent.io/kafka-connect-hdfs3-sink/current/index.html

Anton Zadorozhniy

спасибо, обязательно гляну

00:07пожаловаться #8

Ali Abdullaev in Data Engineers

Ребята, никто не сталкивался с ошибками "Executor is not registered" при shuffle в spark?

10:49пожаловаться #9

Dikesh Shah in Data Engineers

/stat@combot

12:23пожаловаться #10

Combot in Data Engineers

Total messages: 74994

12:23пожаловаться #11

er@essbase.ru in Data Engineers

Народ, подскажите , в логах в каких единицах отражается память ? в mb ?

2021-01-27 09:29:26,049 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Recalculating schedule, headroom=<memory:179200, vCores:13>

12:24пожаловаться #12

Alex in Data Engineers

да

12:26пожаловаться #13

Alex in Data Engineers

all YARN configurations have specified memory in MB

12:28пожаловаться #14

Apache Iceberg 0.11.0 release http://iceberg.apache.org/releases/#0110-release-notes

Alexandr Vladimirovi... in Data Engineers

16:19пожаловаться #15

Привет, подскажите плиз, у confluent есть Kafka connect sink JDBC
эта штука open source или требуется подписку на confluent platform и используется исключительно в этом коробочном решении?

Alexandr Vladimirovi... in Data Engineers

16:22пожаловаться #16

и для того чтобы условно подружить Debezium to Kafka с синком в JDBC хранилище, это надо либо писать свой коннектор в Kafka connect фреймворке или брать свою kafka либку и в качестве consumer данные записывать?

16:24пожаловаться #17

Alexandr Vladimirovich

этот коннектор использует confluent community license, вы можете использовать его для определенных вещей, но строить сервисы которые конкурируют с Confluent нельзя https://github.com/confluentinc/kafka-connect-jdbc

16:32пожаловаться #18

https://www.confluent.io/confluent-community-license-faq/

Alexandr Vladimirovi... in Data Engineers

16:32пожаловаться #19

Anton Zadorozhniy

получается что я могу установить Apache версию kafka, сверху поставить kafka connect и скачать этот коннектор?