Телеграмм чат группы hadoopusers страница 2017

18:28пожаловаться #1

2020 January 30

DG

Две копейки про MR vs Spark.
1. Spark быстрее за счет: меньшего количества обращения к диску (мин один цикл чтения и записи на stage для shuffle в локальный диск, у хадупного mr кажется два или три, не помню точно, но на практике обычно больше); наличие DAG и продвинутого оптимизатора, а также хорошего execution engine с кодогенерацией, кеши, локальность.
2. Если spark операторы начинают делать spill на диск, скорость уже сравнима с MR (добавляем лишние обращения к диску).
3. Формально, spark очень близок к модели MR, потому что связанные stages все равно выполняются последовательно. Архитектурно, это то же развитие MR. Реальная альтернатива, это true streaming движки, поверх акторной модели, где упор сделан на минимизацию latency. Одну конкретную запись можно протолкнуть через весь пайплайн, применяя вычисления одно за другим, без задержек.
4. Даже продвинутые движки MR (не хадуп), у которых есть операции sort или mapreduce (как единая операция), можественный reduce (для star join) все равно проигрывают спарку в wall clock.
5. Большие кластера спарк (больше 10000 ядер, больше 1000 нод) кажется ранее были проблемой. Сейчас - хз, но вроде я слышал про кластер в неск. тыс нод.

00:15пожаловаться #2

OA

Oleksandr Averchenko in Data Engineers

Две копейки про MR vs Spark.
1. Spark быстрее за счет: меньшего количества обращения к диску (мин один цикл чтения и записи на stage для shuffle в локальный диск, у хадупного mr кажется два или три, не помню точно, но на практике обычно больше); наличие DAG и продвинутого оптимизатора, а также хорошего execution engine с кодогенерацией, кеши, локальность.
2. Если spark операторы начинают делать spill на диск, скорость уже сравнима с MR (добавляем лишние обращения к диску).
3. Формально, spark очень близок к модели MR, потому что связанные stages все равно выполняются последовательно. Архитектурно, это то же развитие MR. Реальная альтернатива, это true streaming движки, поверх акторной модели, где упор сделан на минимизацию latency. Одну конкретную запись можно протолкнуть через весь пайплайн, применяя вычисления одно за другим, без задержек.
4. Даже продвинутые движки MR (не хадуп), у которых есть операции sort или mapreduce (как единая операция), можественный reduce (для star join) все равно проигрывают спарку в wall clock.
5. Большие кластера спарк (больше 10000 ядер, больше 1000 нод) кажется ранее были проблемой. Сейчас - хз, но вроде я слышал про кластер в неск. тыс нод.

Расскажи про true streaming движки.

00:17пожаловаться #3

A

Две копейки про MR vs Spark.
1. Spark быстрее за счет: меньшего количества обращения к диску (мин один цикл чтения и записи на stage для shuffle в локальный диск, у хадупного mr кажется два или три, не помню точно, но на практике обычно больше); наличие DAG и продвинутого оптимизатора, а также хорошего execution engine с кодогенерацией, кеши, локальность.
2. Если spark операторы начинают делать spill на диск, скорость уже сравнима с MR (добавляем лишние обращения к диску).
3. Формально, spark очень близок к модели MR, потому что связанные stages все равно выполняются последовательно. Архитектурно, это то же развитие MR. Реальная альтернатива, это true streaming движки, поверх акторной модели, где упор сделан на минимизацию latency. Одну конкретную запись можно протолкнуть через весь пайплайн, применяя вычисления одно за другим, без задержек.
4. Даже продвинутые движки MR (не хадуп), у которых есть операции sort или mapreduce (как единая операция), можественный reduce (для star join) все равно проигрывают спарку в wall clock.
5. Большие кластера спарк (больше 10000 ядер, больше 1000 нод) кажется ранее были проблемой. Сейчас - хз, но вроде я слышал про кластер в неск. тыс нод.

1 ошибочно, MR точно так же как и спарк спил только если буфера не хватает, если буфера хватает то все в памяти, только на выходе из map спил получаешь

Сам занимался тюнингом размера этих буферов, добивался что на терасорте диск 1 раз писался на выходе из мапа и редьюсер уже складывал в хдфс

00:19пожаловаться #4

DG

Вот пруф.

https://0x0fff.com/wp-content/uploads/2014/12/MapReduce-v3.png

00:24пожаловаться #5

DG

Я насчитал minimum 2

00:25пожаловаться #6

UD

Uncel Duk in Data Engineers

Какая хорошая пикча, осталось принтер а0 найти

00:27пожаловаться #7

A

Вот пруф.

https://0x0fff.com/wp-content/uploads/2014/12/MapReduce-v3.png

Это описывает вариант когда памяти на буфер не хватает, эту картинку можно точно так же применить на шафл спарка :)

00:28пожаловаться #8

DG

Спарк пишет на диск при шафле но один раз. Запичал и потом прочитал в следующем.

00:28пожаловаться #9

DG

Alex

Это описывает вариант когда памяти на буфер не хватает, эту картинку можно точно так же применить на шафл спарка :)

В 2.7.3 я это прямо по коду проверял, сейчас искать не буду, сорян.

00:29пожаловаться #10

A

Если хватает то spill file 1 2 3... Не происходит и сразу в мерж файл

00:29пожаловаться #11

A

Спарк пишет на диск при шафле но один раз. Запичал и потом прочитал в следующем.

Можно пруфы что происходит когда в буфер в спарке оутпут не влазит на шафл :)

00:29пожаловаться #12

A

Точно так же промежуточные файлы и потом мерж в финальный

00:30пожаловаться #13

DG

Я про операторы и spill написал отдельным пунктом.

00:31пожаловаться #14

A

Хадуп:
Пишем буфер
Если не влазит сортируем и спилим на диск
Потом мержером через сорт мерж клеим

Если влазит то спил и последующий мерж пропускается, сброс один раз

Spark в этом плане 1 в 1 работа

00:33пожаловаться #15

A

https://i2.wp.com/0x0fff.com/wp-content/uploads/2015/08/spark_tungsten_sort_shuffle.png

00:35пожаловаться #16

A

Игра найди 10 отличий :)

00:36пожаловаться #17

DG

Концептуально, отличий не много, я об этом писал. Реализовано спарке значительно лучше.

00:44пожаловаться #18

O

Orlan in Data Engineers

Привет всем! Поскажите, пожалуйста, как сгенерить в кафке простые геоданные, а имено координаты(широта и долгота) точек ? Строка- координаты одной точки, след строка - координаты другой точки итд

09:03пожаловаться #19

S

Stanislav in Data Engineers

ничего себе до чего кафка дошла