Size: a a a

2021 June 18

LL

Lyudmila Lapitskaia in Data Engineers
Это pyspark на кластере, ООМ на драйвере при получении списка партишенов, отфильтрованных по предикату (listPartitionsByFilter)
С этим фильтром их должно получаться 365 (даты за год)
У драйвера 10G памяти, и памяти дать драйверу я могу больше, и это работает, но мне интересно понять механизм - что за метадату (?) Спарк сохраняет, что 300 партишенов вызывает у него ООМ (с моей точки зрения - это довольно небольшое число)
источник

AB

Andrey Bel in Data Engineers
10 gb  на драйвер это прям оч много - особенно если вы на ярне запускаете!
меня могут поправить более олдовые ребята но не факт что ошибка именнь изза  чтения списка партишнов, не редко спарк просто в этом месте может показать, а ошибка случилась до этого.
ООМ на драйвере обычно если вы на него тянете много данных с экзекьюторов каким нить экшеном
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ну так надо сделать heapdumponoutofmemoryerror и посмотреть
источник

ПФ

Паша Финкельштейн... in Data Engineers
Какой смысл гадать на кофейной гуще когда jvm даёт всё инструменты?
источник

LL

Lyudmila Lapitskaia in Data Engineers
Попробую, спасибо
источник

ПФ

Паша Финкельштейн... in Data Engineers
Разбирать хипдамп потом легче всего mat - eclipse memory analyser tool
источник

R

Roman in Data Engineers
ребят, а кто-нибудь может скинуть ссылки на хорошие статьи по best practices в DE/ построение ETL и т.д. ?
источник

GP

Grigory Pomadchin in Data Engineers
@asm0dey ну все теперь будут в котлине имплиситы (https://github.com/Kotlin/KEEP/blob/context-receivers/proposals/context-receivers.md), будешь переделывать спарк котлен апи?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Это ж кип :(
Но вообще это, кажется, одна из возможных имплементаций multiple recievers, которую я давно жду и дизайн прототип которой давно в роадмапе.
А в котлин-Спарк есть буквально три функции дизайн которых это бы улучшило
источник

ПФ

Паша Финкельштейн... in Data Engineers
А ещё давно жду тайпклассы
источник

GP

Grigory Pomadchin in Data Engineers
гвоорили ж что тупклассов и имплиситов не будет
источник

GP

Grigory Pomadchin in Data Engineers
источник

ПФ

Паша Финкельштейн... in Data Engineers
А где ты видишь имплиситы?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Это галлюцинации, конечно
источник

GP

Grigory Pomadchin in Data Engineers
это экстеншены
источник

GP

Grigory Pomadchin in Data Engineers
источник

ПФ

Паша Финкельштейн... in Data Engineers
Это просто расширенный контекст, его и сейчас можно сделать и, более того, примерно во всех dsl он используется
источник

GP

Grigory Pomadchin in Data Engineers
ресиверы ет имплиситы
источник

ПФ

Паша Финкельштейн... in Data Engineers
А где имплиситы?
источник

GP

Grigory Pomadchin in Data Engineers
ну там так написано я не выдумываю
источник