Телеграмм чат группы hadoopusers страница 2011

ну просто мне каждый раз рассказывают этот миф про мэп редьюс, а вот в спарке оно типо сделано по другому

на самом деле нет, всё ровно так же сделано, плюс сейчас спарк думает сразу в hdfs/s3 писать выводы map, а не на локал диск, так как в кубике нужно быстрее ноды возвращать после окончания фазы

источник

08:47пожаловаться #4

P

Pavel in Data Engineers

Alex

ну просто мне каждый раз рассказывают этот миф про мэп редьюс, а вот в спарке оно типо сделано по другому

на самом деле нет, всё ровно так же сделано, плюс сейчас спарк думает сразу в hdfs/s3 писать выводы map, а не на локал диск, так как в кубике нужно быстрее ноды возвращать после окончания фазы

Ок

источник

08:48пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

Alex

ну просто мне каждый раз рассказывают этот миф про мэп редьюс, а вот в спарке оно типо сделано по другому

на самом деле нет, всё ровно так же сделано, плюс сейчас спарк думает сразу в hdfs/s3 писать выводы map, а не на локал диск, так как в кубике нужно быстрее ноды возвращать после окончания фазы

Думаю кстати оригинально кидалось все на локал чтоб не реплицировать аутпуты

источник

09:00пожаловаться #6

A

Alex in Data Engineers

возможно, вот только в доке гугла вроде про это не было описано “почему”
а хадуп реализовал первоначально достаточно в лоб по вайтпеперу

источник

09:02пожаловаться #7

GP

Grigory Pomadchin in Data Engineers

но вот редьюсер все в хдфс сложит

источник

09:03пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

GP

Grigory Pomadchin in Data Engineers

Alex

возможно, вот только в доке гугла вроде про это не было описано “почему”
а хадуп реализовал первоначально достаточно в лоб по вайтпеперу

думаю пойнт был не в том что в хдфс пишется а то что интермедиет степы ‘мра’ спарке в памяти держать может

источник

09:06пожаловаться #10

A

Alex in Data Engineers

ну тут же стоит немножко тоже развернуть:
map операции зачастую гонятся через chain и там интермедиет как таковое нету
а reduce операции все равно через диск проходят

НО вот следующие map можно уже гнать потом сразу с памяти

по мне в спарке вот этот chain для мэпов даже больше даёт выгоды чем работа с диском

тот же tez поэтому и показывал получше результаты заметно, что мог делать map-map-map-reduce

источник

09:08пожаловаться #11

S

Stanislav in Data Engineers

есть и оборотная сторона медали - на больших данные мр работает беспроблемно, а тез начинает играть в ваньку-встаньку из-за ООМ на контейнерах

источник

09:15пожаловаться #12

S

Stanislav in Data Engineers

и внезапно мр оказывается быстрее )

источник

09:15пожаловаться #13

K

KrivdaTheTriewe in Data Engineers

Это у мейла стать была , про то , что мр иногда бывает быстрее

источник

09:20пожаловаться #14

GP

Grigory Pomadchin in Data Engineers

KrivdaTheTriewe

Это у мейла стать была , про то , что мр иногда бывает быстрее

и наверное у Твиттера что-то такое было

источник

09:34пожаловаться #15

S

Stanislav in Data Engineers

ну тут надо понимать, что обычно это проистекает от неоптимального хранения данных либо неоптимального кода
но тем не менее мр решает успешно проблему в лоб

источник

09:36пожаловаться #16

S

Stanislav in Data Engineers

жаль, что в хайв3 за нас все решили и движка мр больше нет
при переходе с клаудеры жизнь усложнило прилично

источник

09:36пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

Alexey Evdokimov

кому чтива на ночь
https://habr.com/ru/post/485988/

Хабр

[кейс Locomizer] Как за два с половиной года ускорить расчёт тепловой карты в 20 000 раз

Данная статья является продолжением серии «Кейс Locomizer», см. также • Какие знания можно на самом деле извлечь из анонимизированного датасета с координатами по...

> Архитектура таких хранилищ оптимизируются для быстрого случайного доступа
Случайный доступ это все-таки random access, то есть индексный доступ по ключу, а озёра и хранилища как раз оптимизируются под сканы; возможно вы хотели сказать "оптимизируются для ad-hoc запросов"

источник

10:37пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

И строго говоря дата лейк и стриминг это архитектурные шаблоны, высокоуровневых архитектур решений всего две: независимые витрины и нормализованный детальный слой с зависимыми витринами, а уж как пополняются витрины и слои - это детали реализации)

источник

10:48пожаловаться #19

А

Алексей in Data Engineers

Привет, подскажите, кто знает, есть ли аналоги jstat и jcmd для jvm в AIX?
Хочу снять трассировку работающего процесса + нужен дамп heap и статистика работы gc

источник

10:53пожаловаться #20