Size: a a a

2021 June 28

МК

Михаил Королев... in Data Engineers
я поневоле изучил (Cloudera грозилась на тестах дать аж треть задачек по нему), но доброй воле никак не смог: ну невозможно такое придумать и потом использовать (особенно когда есть альтернативы)...
источник

AZ

Anton Zadorozhniy in Data Engineers
Если экосистема Hadoop - это родной планировщик, все из коробки, хранение всего в HDFS, для запуска YARN, чего не любить
источник

AZ

Anton Zadorozhniy in Data Engineers
Я много хороших систем на нем построил, удобно что XML со схемой - можно координаторы и воркфлоу писать на любом языке
Главный недостаток - прибит гвоздями к хадупу
источник

EB

Ekaterina Belova in Data Engineers
+1
источник

K

KrivdaTheTriewe in Data Engineers
ребят, а какого процессинг рейта вы добивались спарком стракчар стримиинг на экзекьютор, если идет обычный avro -> parquet
источник

K

KrivdaTheTriewe in Data Engineers
у меня странная ситуация, что 40 ядер не могут 180к событий в секунду обработать
источник
2021 June 29

A

Alex in Data Engineers
паркет же колумнар формат и формирование его бывает очень весёлой и затратной операцией
поэтому посмотрите в лоб треддамп на екзекуторах где оно висит
в паркете или в автра или в вашей какой логике
источник

МК

Михаил Королев... in Data Engineers
не любить: сложно и контринтуитивно, чтобы что-то простое сделать нужно документацию до конца дочитать (и вникнуть, не то чтобы я читать не люблю или не умею, это к тем, кто дочитал), возможности простого расширения на мой взгляд крайне ограничены (сделать что-то большее, нежели то, что авторы вложили в коробку), особенно, если к тому времени уже пользуешься Airflow. Возникает вопрос: зачем возвращаться к Oozie??? Понятно, что если нужно два MR джоба запустить друг за другом - что-то изначально было нужно, но... тем не менее
источник

GP

Grigory Pomadchin in Data Engineers
а что брать если ни то ни то не любишь
источник

GP

Grigory Pomadchin in Data Engineers
источник

SS

Sergey Shushkov in Data Engineers
Конечно азкабан )
источник

GP

Grigory Pomadchin in Data Engineers
Ну это совсем прибито к хадупу
источник

GP

Grigory Pomadchin in Data Engineers
Мне ж не везде он нужен
источник

МК

Михаил Королев... in Data Engineers
любить - это одно (вопрос был - за что), брать - другое: все же тот же Airflow по части простоты "въезжания" (для питонистов) куда как проще. И - Антон подметил - к хадупу никак не прибит. Плюс - спасибо Екатерине - как минимум очень популярный инструмент. Но каждый сам решает, естественно. Не могу сказать, что Airflow - верх совершенства, еще один плюс - развивается (в отличие от того же Oozie или Livy)
источник

SS

Sergey Shushkov in Data Engineers
Ну в теории там через комманд можно запустить что угодно, не обязательно хадуп )
источник

АБ

Адиль Бадиль... in Data Engineers
docker run -d --name zookeeper -p 2181:2181 -p 2888:2888 -p 3888:3888 debezium/zookeeper:1.1
docker run -d --name kafka -p 9092:9092 --link zookeeper:zookeeper debezium/kafka:1.1
————————————————————————————
from kafka import KafkaProducer
producer = KafkaProducer(bootstrap_servers=['localhost:9092'])

producer.send('Adil', 'Hello, World!')

————————————————————————————
В кафку не приходят сообщения
источник

АБ

Адиль Бадиль... in Data Engineers
кто-то сталкивался с подобными проблемами ?
источник

T

T in Data Engineers
Попробуй добавить producer.flush() producer.close()
источник

T

T in Data Engineers
В конец
источник

АЖ

Андрей Жуков... in Data Engineers
ну и read_uncommitted можно попробовать
источник