Size: a a a

2020 January 29

АК

Алина Карпенко in Data Engineers
Да, конечно
источник
2020 January 30

DG

Denis Gabaydulin in Data Engineers
Две копейки про MR vs Spark.
1. Spark быстрее за счет: меньшего количества обращения к диску (мин один цикл чтения и записи на stage для shuffle в локальный диск, у хадупного  mr кажется два или три, не помню точно, но на практике обычно больше); наличие DAG и продвинутого оптимизатора, а также хорошего execution engine с кодогенерацией, кеши, локальность.
2. Если spark операторы начинают делать spill на диск, скорость уже сравнима с MR (добавляем лишние обращения к диску).
3. Формально, spark очень близок к модели MR, потому что связанные stages все равно выполняются последовательно. Архитектурно, это то же развитие MR. Реальная альтернатива, это true streaming движки, поверх акторной модели, где упор сделан на минимизацию latency. Одну конкретную запись можно протолкнуть через весь пайплайн, применяя вычисления одно за другим, без задержек.
4. Даже продвинутые движки MR (не хадуп), у которых есть операции sort или mapreduce (как единая операция), можественный reduce (для star join) все равно проигрывают спарку в wall clock.
5. Большие кластера спарк (больше 10000 ядер, больше 1000 нод) кажется ранее были проблемой. Сейчас - хз, но вроде я слышал про кластер в неск. тыс нод.
источник

OA

Oleksandr Averchenko in Data Engineers
Denis Gabaydulin
Две копейки про MR vs Spark.
1. Spark быстрее за счет: меньшего количества обращения к диску (мин один цикл чтения и записи на stage для shuffle в локальный диск, у хадупного  mr кажется два или три, не помню точно, но на практике обычно больше); наличие DAG и продвинутого оптимизатора, а также хорошего execution engine с кодогенерацией, кеши, локальность.
2. Если spark операторы начинают делать spill на диск, скорость уже сравнима с MR (добавляем лишние обращения к диску).
3. Формально, spark очень близок к модели MR, потому что связанные stages все равно выполняются последовательно. Архитектурно, это то же развитие MR. Реальная альтернатива, это true streaming движки, поверх акторной модели, где упор сделан на минимизацию latency. Одну конкретную запись можно протолкнуть через весь пайплайн, применяя вычисления одно за другим, без задержек.
4. Даже продвинутые движки MR (не хадуп), у которых есть операции sort или mapreduce (как единая операция), можественный reduce (для star join) все равно проигрывают спарку в wall clock.
5. Большие кластера спарк (больше 10000 ядер, больше 1000 нод) кажется ранее были проблемой. Сейчас - хз, но вроде я слышал про кластер в неск. тыс нод.
Расскажи про true streaming движки.
источник

A

Alex in Data Engineers
Denis Gabaydulin
Две копейки про MR vs Spark.
1. Spark быстрее за счет: меньшего количества обращения к диску (мин один цикл чтения и записи на stage для shuffle в локальный диск, у хадупного  mr кажется два или три, не помню точно, но на практике обычно больше); наличие DAG и продвинутого оптимизатора, а также хорошего execution engine с кодогенерацией, кеши, локальность.
2. Если spark операторы начинают делать spill на диск, скорость уже сравнима с MR (добавляем лишние обращения к диску).
3. Формально, spark очень близок к модели MR, потому что связанные stages все равно выполняются последовательно. Архитектурно, это то же развитие MR. Реальная альтернатива, это true streaming движки, поверх акторной модели, где упор сделан на минимизацию latency. Одну конкретную запись можно протолкнуть через весь пайплайн, применяя вычисления одно за другим, без задержек.
4. Даже продвинутые движки MR (не хадуп), у которых есть операции sort или mapreduce (как единая операция), можественный reduce (для star join) все равно проигрывают спарку в wall clock.
5. Большие кластера спарк (больше 10000 ядер, больше 1000 нод) кажется ранее были проблемой. Сейчас - хз, но вроде я слышал про кластер в неск. тыс нод.
1 ошибочно, MR точно так же как и спарк спил только если буфера не хватает, если буфера хватает то все в памяти, только на выходе из map спил получаешь

Сам занимался тюнингом размера этих буферов, добивался что на терасорте диск 1 раз писался на выходе из мапа и редьюсер уже складывал в хдфс
источник

DG

Denis Gabaydulin in Data Engineers
источник

DG

Denis Gabaydulin in Data Engineers
Я насчитал minimum 2
источник

UD

Uncel Duk in Data Engineers
Какая хорошая пикча, осталось принтер а0 найти
источник

A

Alex in Data Engineers
Это описывает вариант когда памяти на буфер не хватает, эту картинку можно точно так же применить на шафл спарка :)
источник

DG

Denis Gabaydulin in Data Engineers
Спарк пишет на диск при шафле но один раз. Запичал и потом прочитал в следующем.
источник

DG

Denis Gabaydulin in Data Engineers
Alex
Это описывает вариант когда памяти на буфер не хватает, эту картинку можно точно так же применить на шафл спарка :)
В 2.7.3 я это прямо по коду проверял, сейчас искать не буду, сорян.
источник

A

Alex in Data Engineers
Если хватает то spill file 1 2 3... Не происходит и сразу в мерж файл
источник

A

Alex in Data Engineers
Denis Gabaydulin
Спарк пишет на диск при шафле но один раз. Запичал и потом прочитал в следующем.
Можно пруфы что происходит когда в буфер в спарке оутпут не влазит на шафл :)
источник

A

Alex in Data Engineers
Точно так же промежуточные файлы и потом мерж в финальный
источник

DG

Denis Gabaydulin in Data Engineers
Я про операторы и spill написал отдельным пунктом.
источник

A

Alex in Data Engineers
Хадуп:
Пишем буфер
Если не влазит сортируем и спилим на диск
Потом мержером через сорт мерж клеим

Если влазит то спил и последующий мерж пропускается, сброс один раз

Spark в этом плане 1 в 1 работа
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
Игра найди 10 отличий :)
источник

DG

Denis Gabaydulin in Data Engineers
Концептуально, отличий не много, я об этом писал. Реализовано спарке значительно лучше.
источник

O

Orlan in Data Engineers
Привет всем! Поскажите, пожалуйста, как сгенерить в кафке простые геоданные, а имено координаты(широта и долгота) точек ? Строка- координаты одной точки, след строка - координаты другой точки итд
источник

S

Stanislav in Data Engineers
ничего себе до чего кафка дошла
источник