Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.
Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.
ну второе не выбирают только когда что-то лонг раннинг (прям очень); большие объемы, или требования по безопасности есть
Ну вот в частности был хороший вопрос про EMR. Если выбирать между кубер + spark и EMR, то надо какие-то очень веские причины, чтобы не выбрать второе, а пилить свое from scratch.
Просто мнение. Не очень понятно откуда взялось утверждение, что тренд на локалити уходит. Я бы сказал наоборот. Базы данных-то как раз (мпп), которые подменяют хадуп-спарк это все суперлокальные решения. Вычисления макс близко к данным. Я так-то хадуп не защищаю, но кажется что спарк в кубере поверх s3, это шаг назад. Уж лучше проприетарная облачная платформа.
во многих ли виденных тобой хадупных кластерах был настроенный и работающий в спарке data locality?
А как тут проверишь? Говорят UI врет на эту тему. Но в UI вроде rack aware обычно не сильно большой процент. Сеть-то она быстрая если дц ваш и там больше никого нет и ваши же инженеры ее строили. А если там полно других кластеров, я не сильно верю что квоты спасут.
А как тут проверишь? Говорят UI врет на эту тему. Но в UI вроде rack aware обычно не сильно большой процент. Сеть-то она быстрая если дц ваш и там больше никого нет и ваши же инженеры ее строили. А если там полно других кластеров, я не сильно верю что квоты спасут.
Ну надо сравнивать, но вообще EMR на EBS поднимается, так что в чем разница? Ну и просто перед сетевым хранилищем сильнее сжимать и все