Size: a a a

2019 August 25

ПФ

Паша Финкельштейн in Data Engineers
Сериал в статье вообще не рассмотрен :(
источник

ПФ

Паша Финкельштейн in Data Engineers
И ещё там только RDD, но до них ещё надо дойти если мы говорим про датафреймы и датасеты
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
И ещё там только RDD, но до них ещё надо дойти если мы говорим про датафреймы и датасеты
рдд это примитивы уже выполнения физ плана
источник

ПФ

Паша Финкельштейн in Data Engineers
Там STW выставлен как абсолютное зло, тоже не очень понимаю почему. STW плох когда у тебя клиент ждать не должен - веб и всякое такое. А чем он плох в spark  джобах?
источник

ПФ

Паша Финкельштейн in Data Engineers
Grigory Pomadchin
рдд это примитивы уже выполнения физ плана
Я правильно понимаю что как бы я ни писал - сначала моё приложение превратится в план выполнения на RDD, а только потом уже будет выполняться?
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Я правильно понимаю что как бы я ни писал - сначала моё приложение превратится в план выполнения на RDD, а только потом уже будет выполняться?
Да, оптимизированный логический план грубо говоря в рдд транслируется
источник

ПФ

Паша Финкельштейн in Data Engineers
Тогда пофиг что происходит на уровне скалы, да. Это первые секунды исполнения
источник

GP

Grigory Pomadchin in Data Engineers
Почему грубо - потому что немного по-разному сериализация случается
источник

GP

Grigory Pomadchin in Data Engineers
да тут важнее что между нодами в итоге будет слаться
источник

ПФ

Паша Финкельштейн in Data Engineers
Grigory Pomadchin
да тут важнее что между нодами в итоге будет слаться
Кажется тут ничего не зависит от гц. То есть если мы переслали 20 гигов - то мы их переслали
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Кажется тут ничего не зависит от гц. То есть если мы переслали 20 гигов - то мы их переслали
зависит Скока чистить будет из партиции.
источник

GP

Grigory Pomadchin in Data Engineers
он отдельно дергает гц по окончанию жизни партиции
источник

ПФ

Паша Финкельштейн in Data Engineers
О чём ещё подумал: так как вообще-то говоря на RDD существует очень ограниченное количество операций - они должны очень хорошо оптимизироваться pgo
источник

ПФ

Паша Финкельштейн in Data Engineers
Grigory Pomadchin
он отдельно дергает гц по окончанию жизни партиции
В смысле дёргает? Зовёт System.gc()?
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
В смысле дёргает? Зовёт System.gc()?
Да
источник

ПФ

Паша Финкельштейн in Data Engineers
Ну это не гарантия ничего. Gc не обязан выполняться и с большой вероятностью не выполнится нормально
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
О чём ещё подумал: так как вообще-то говоря на RDD существует очень ограниченное количество операций - они должны очень хорошо оптимизироваться pgo
да, но в случае если тебе надо десериализлвать 100% инфы погружённой в память спарка
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Ну это не гарантия ничего. Gc не обязан выполняться и с большой вероятностью не выполнится нормально
да
источник

GP

Grigory Pomadchin in Data Engineers
Но, факт что партиции чистить надо
источник

ПФ

Паша Финкельштейн in Data Engineers
Более того, кажется как раз шенанда этот вызов игнорирует
источник