Size: a a a

2021 January 22

AE

Alexey Evdokimov in Data Engineers
ну я щас пытаюсь слона есть по частям
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
Ну тебе нужна память на сам джесон и на результат его парсинга
толлько на результат самй джейсон это строка
источник

AE

Alexey Evdokimov in Data Engineers
бить на куски, инждексить, и кидать на каждый партишен только свой кусок
источник

GP

Grigory Pomadchin in Data Engineers
Alexey Evdokimov
бить на куски, инждексить, и кидать на каждый партишен только свой кусок
да
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
толлько на результат самй джейсон это строка
Ну ты делаешь broadcast(string) , у тебя будет этот стринг всегда в памяти , даже когда ты его уже распарсил и результат можно опустить , на каждом эузекьбторе
источник

AE

Alexey Evdokimov in Data Engineers
в итоге екзекуторы проводят в GC 60% времени по логам
источник

A

Alex in Data Engineers
KrivdaTheTriewe
Ну и смотри , по идее у тебя будет на каждую партию парсинг происходить
нет если запихать в статик переменную, но остаётся вопрос как потом чистить
хотя если он нужен всегда для работы то и хер с ним, вконце просто джоб завершишь
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
Ну ты делаешь broadcast(string) , у тебя будет этот стринг всегда в памяти , даже когда ты его уже распарсил и результат можно опустить , на каждом эузекьбторе
у него проблема что много мелких обектов в памяти
источник

A

Alex in Data Engineers
(это про запихать это всё в mapPartition)
источник

AE

Alexey Evdokimov in Data Engineers
да
источник

GP

Grigory Pomadchin in Data Engineers
Alexey Evdokimov
в итоге екзекуторы проводят в GC 60% времени по логам
ну упрощай фигуры они меньше весить будут
источник

AE

Alexey Evdokimov in Data Engineers
их не просто много, их ахуительно много
источник

GP

Grigory Pomadchin in Data Engineers
и раскидывай по партициям по чутьчуть
источник

AE

Alexey Evdokimov in Data Engineers
так вот, не могу, точность потеряется :(
источник

GP

Grigory Pomadchin in Data Engineers
ну разбивай))
источник

GP

Grigory Pomadchin in Data Engineers
ток так
источник

GP

Grigory Pomadchin in Data Engineers
броадкаст не спасет т.к. у тебя всеравно ж партиции после выполняния операций должны будут очищены
источник

GP

Grigory Pomadchin in Data Engineers
значит им всеравно чистить мусор надо
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
броадкаст не спасет т.к. у тебя всеравно ж партиции после выполняния операций должны будут очищены
Можно сделать что то типа пула
источник

K

KrivdaTheTriewe in Data Engineers
Как с кафкой делали
источник