Size: a a a

2021 March 04

Igor  Master in Data Engineers
Ну это будет 6000 партиций
источник

AE

Alexey Evdokimov in Data Engineers
ну так и что с того
источник

Igor  Master in Data Engineers
Пробовали - оОООЧень долго
источник

SB

Serg Bara in Data Engineers
Всем привет!
Подскажите, пожалуйста, начинающему:
почему приложения Oozie-workflow с shell-action после завершения работы в Yarn всегда отображаются с FinalStatus = SUCCEED. Хотя даже принудительно пробовал в shell-action возвращать "exit 1" (по всякому пробовал...). Стек - Cloudera CDH 5.14.

Кто-нибудь сталкивался с подобным? Может, так и задумано?
источник

AE

Alexey Evdokimov in Data Engineers
Igor  Master
Пробовали - оОООЧень долго
кгхм. вот у меня десяток миллионов устройств. я их складываю по партициям так, чтобы все сигналы от одного устройства были в одной партиции. а сигналов миллиарды. и партиций получается сотня-другая тыщ. просто я это делаю в самом начале цепочки обработки, самой первой операцией. и всё норм
источник

N

Nikita Blagodarnyy in Data Engineers
Alexey Evdokimov
да и разработчики, которые могут писать на спарке без spark.sql, стоят дороже, чем те кто пишут на spark.sql
Надо на рдд всё лабать?
источник

AE

Alexey Evdokimov in Data Engineers
ну и после самого тяжёлого (и единственного) шафла накладывается самый сильный фильтр, а дальше уже всё вполне линейно.

ну наши данные такое позволяют
источник

AE

Alexey Evdokimov in Data Engineers
Nikita Blagodarnyy
Надо на рдд всё лабать?
в моём случае оправданно, в любом другом 99.9% что нет
источник

Igor  Master in Data Engineers
@workales Мы вот так пришли к сортированным партициям
источник

Igor  Master in Data Engineers
А в Датабрикс есть похожий Z-Ordering
источник

AZ

Anton Zadorozhniy in Data Engineers
а в базах все обычно сразу сортировано
источник

AE

Alexey Evdokimov in Data Engineers
ну есть же .repartitionAndSortWithinPartitions, штука полезная
источник

AE

Alexey Evdokimov in Data Engineers
и потом вместо явных джойнов .zipPartitions
источник

Igor  Master in Data Engineers
Anton Zadorozhniy
а в базах все обычно сразу сортировано
Ну по сути эти все оптимизации от туда и пошли я думаю.
источник

Igor  Master in Data Engineers
Там по моему еще это не во всех версиях работает
источник

AZ

Anton Zadorozhniy in Data Engineers
Igor  Master
Там по моему еще это не во всех версиях работает
да, дельта осс это тестовая заглушка, там нет оптимизаций
источник

AE

Alexey Evdokimov in Data Engineers
в любом случае закат солнца вручную будет эффективнее, чем что-либо более высокоуровневое, но требует от участников мероприятия больших мозгозатрат и лучшего понимания что вообще происходит с данными. мне вот страшно представить что будет с проектом если я с него вдруг свалю. дока конечно написана, но куча мест где всё крайне неочевидно и не по рекомендациям
источник

AZ

Anton Zadorozhniy in Data Engineers
вот похожая ситуация с пачкой инженеров которые написали много хорошего ассемблерного кода, с SSE и AVX, но проблема не в том что кто-то уходит, а надо переносить все на другую архитектуру, и это очень больно
источник

UD

Uncel Duk in Data Engineers
На условные армы не сложно переносится
источник

UD

Uncel Duk in Data Engineers
Правда зачем проваливаться на уровень ассемблера, когда у интела полно оберток
источник