Телеграмм чат группы hadoopusers страница 3318

Всем привет!
Подскажите, пожалуйста, начинающему:
почему приложения Oozie-workflow с shell-action после завершения работы в Yarn всегда отображаются с FinalStatus = SUCCEED. Хотя даже принудительно пробовал в shell-action возвращать "exit 1" (по всякому пробовал...). Стек - Cloudera CDH 5.14.

Кто-нибудь сталкивался с подобным? Может, так и задумано?

источник

17:20пожаловаться #4

Alexey Evdokimov in Data Engineers

Igor Master

Пробовали - оОООЧень долго

кгхм. вот у меня десяток миллионов устройств. я их складываю по партициям так, чтобы все сигналы от одного устройства были в одной партиции. а сигналов миллиарды. и партиций получается сотня-другая тыщ. просто я это делаю в самом начале цепочки обработки, самой первой операцией. и всё норм

источник

17:20пожаловаться #5

Nikita Blagodarnyy in Data Engineers

Alexey Evdokimov

да и разработчики, которые могут писать на спарке без spark.sql, стоят дороже, чем те кто пишут на spark.sql

Надо на рдд всё лабать?

источник

17:22пожаловаться #6

Alexey Evdokimov in Data Engineers

ну и после самого тяжёлого (и единственного) шафла накладывается самый сильный фильтр, а дальше уже всё вполне линейно.

ну наши данные такое позволяют

источник

17:23пожаловаться #7

Alexey Evdokimov in Data Engineers

Nikita Blagodarnyy

Надо на рдд всё лабать?

в моём случае оправданно, в любом другом 99.9% что нет

источник

17:24пожаловаться #8

Igor Master in Data Engineers

@workales Мы вот так пришли к сортированным партициям

источник

17:26пожаловаться #9

Igor Master in Data Engineers

А в Датабрикс есть похожий Z-Ordering

источник

17:27пожаловаться #10

Anton Zadorozhniy in Data Engineers

а в базах все обычно сразу сортировано

источник

17:29пожаловаться #11

Alexey Evdokimov in Data Engineers

ну есть же .repartitionAndSortWithinPartitions, штука полезная

источник

17:30пожаловаться #12

Alexey Evdokimov in Data Engineers

и потом вместо явных джойнов .zipPartitions

источник

17:31пожаловаться #13

Igor Master in Data Engineers

Anton Zadorozhniy

а в базах все обычно сразу сортировано

Ну по сути эти все оптимизации от туда и пошли я думаю.

источник

17:31пожаловаться #14

Igor Master in Data Engineers

Там по моему еще это не во всех версиях работает

источник

17:31пожаловаться #15

Anton Zadorozhniy in Data Engineers

Igor Master

Там по моему еще это не во всех версиях работает

да, дельта осс это тестовая заглушка, там нет оптимизаций

источник

17:33пожаловаться #16

Alexey Evdokimov in Data Engineers

в любом случае закат солнца вручную будет эффективнее, чем что-либо более высокоуровневое, но требует от участников мероприятия больших мозгозатрат и лучшего понимания что вообще происходит с данными. мне вот страшно представить что будет с проектом если я с него вдруг свалю. дока конечно написана, но куча мест где всё крайне неочевидно и не по рекомендациям

источник

17:35пожаловаться #17

Anton Zadorozhniy in Data Engineers

вот похожая ситуация с пачкой инженеров которые написали много хорошего ассемблерного кода, с SSE и AVX, но проблема не в том что кто-то уходит, а надо переносить все на другую архитектуру, и это очень больно

источник

17:43пожаловаться #18

Uncel Duk in Data Engineers

На условные армы не сложно переносится

источник

17:48пожаловаться #19

Uncel Duk in Data Engineers

Правда зачем проваливаться на уровень ассемблера, когда у интела полно оберток

источник

17:49пожаловаться #20