Size: a a a

2019 August 24

ПФ

Паша Финкельштейн in Data Engineers
Он сокращает STW паузы
источник

GP

Grigory Pomadchin in Data Engineers
на лонг ранинг он даёт;
источник

ПФ

Паша Финкельштейн in Data Engineers
Надо немного комплекснее смотреть: у них у всех есть цена. Самый быстрый - это сериал потому что когда все потоки остановлены почистить мусор очень просто
источник

GP

Grigory Pomadchin in Data Engineers
я именно комплексно и говорю и говорю в контексте Спарка; у датабрикс на удивление хорошая статья есть на тему выбора гц в спарке
источник

ПФ

Паша Финкельштейн in Data Engineers
Так просто проходишь по графу и удаляешь всё недостижимое. У всех параллельных так просто не получится потому что достижимость объекта может меняться
источник

ПФ

Паша Финкельштейн in Data Engineers
Grigory Pomadchin
я именно комплексно и говорю и говорю в контексте Спарка; у датабрикс на удивление хорошая статья есть на тему выбора гц в спарке
А про Спарк я не могу говорить :(
источник

ПФ

Паша Финкельштейн in Data Engineers
В идеале в контексте спарка Грааль должен давать нереальный выигрыш за счёт эскейп-анализа и инлайнинга лямбд
источник

ПФ

Паша Финкельштейн in Data Engineers
Но как бенчмаркать Спарк приложения я не знаю
источник

ПФ

Паша Финкельштейн in Data Engineers
Кстати, а почему на лонграннинг g1/parallel лучше? По идее там никого уже не должны волновать 3х-секундные паузы
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
В идеале в контексте спарка Грааль должен давать нереальный выигрыш за счёт эскейп-анализа и инлайнинга лямбд
я не уверен что инлайн лямбд нереальный прирост даст для спарка; он всеравно в контекст хватает по минимуму все
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Кстати, а почему на лонграннинг g1/parallel лучше? По идее там никого уже не должны волновать 3х-секундные паузы
источник

ПФ

Паша Финкельштейн in Data Engineers
Судя по коду сгенерённому из датасетов там есть что инлайнить
источник

ПФ

Паша Финкельштейн in Data Engineers
Да, уже читаю, спасибо
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Судя по коду сгенерённому из датасетов там есть что инлайнить
я конкретно про кепчуринг лямбд; он контекст хватает, и сериализует все чтоб доставить на ноды; прирост будет но не уверен что катастрофический
источник

GP

Grigory Pomadchin in Data Engineers
Посмотрим бенчами
источник

ПФ

Паша Финкельштейн in Data Engineers
А, да, вполне вероятно что ты прав
источник

GP

Grigory Pomadchin in Data Engineers
Разогретый хотспот может быть эффективнее
источник

GP

Grigory Pomadchin in Data Engineers
особенно 11й
источник
2019 August 25

ПФ

Паша Финкельштейн in Data Engineers
Я думаю вот о чём: редьюсы порождают огромное количество объектов промежуточных. Если редьюс превратить в foldLeft на каждой ноде - то можно объектов вообще не порождать,а использовать один
источник

ПФ

Паша Финкельштейн in Data Engineers
Grigory Pomadchin
Разогретый хотспот может быть эффективнее
Да, конечно может
источник