Size: a a a

2020 January 29

P

Pavel in Data Engineers
Yuriy
Всем привет)
o/
источник

P

Pavel in Data Engineers
Зачем я сюда в такую (с)рань зашол. Пойду ебну кофейка в маке и поеду на работку🦦
источник

λ

λoλdog in Data Engineers
Alex
в фазе map-reduce
map пишет на локал
reduce на hdfs как финал приложения
Ну это всеравно не быстро
источник

A

Alex in Data Engineers
Pavel
Блаблабла с утра😒
ну просто мне каждый раз рассказывают этот миф про мэп редьюс, а вот в спарке оно типо сделано по другому

на самом деле нет, всё ровно так же сделано, плюс сейчас спарк думает сразу в hdfs/s3 писать выводы map, а не на локал диск, так как в кубике нужно быстрее ноды возвращать после окончания фазы
источник

P

Pavel in Data Engineers
Alex
ну просто мне каждый раз рассказывают этот миф про мэп редьюс, а вот в спарке оно типо сделано по другому

на самом деле нет, всё ровно так же сделано, плюс сейчас спарк думает сразу в hdfs/s3 писать выводы map, а не на локал диск, так как в кубике нужно быстрее ноды возвращать после окончания фазы
Ок
источник

GP

Grigory Pomadchin in Data Engineers
Alex
ну просто мне каждый раз рассказывают этот миф про мэп редьюс, а вот в спарке оно типо сделано по другому

на самом деле нет, всё ровно так же сделано, плюс сейчас спарк думает сразу в hdfs/s3 писать выводы map, а не на локал диск, так как в кубике нужно быстрее ноды возвращать после окончания фазы
Думаю кстати оригинально кидалось все на локал чтоб не реплицировать аутпуты
источник

A

Alex in Data Engineers
возможно, вот только в доке гугла вроде про это не было описано “почему”
а хадуп реализовал первоначально достаточно в лоб по вайтпеперу
источник

GP

Grigory Pomadchin in Data Engineers
но вот редьюсер все в хдфс сложит
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Alex
возможно, вот только в доке гугла вроде про это не было описано “почему”
а хадуп реализовал первоначально достаточно в лоб по вайтпеперу
думаю пойнт был не в том что в хдфс пишется а то что интермедиет степы ‘мра’ спарке в памяти держать может
источник

A

Alex in Data Engineers
ну тут же стоит немножко тоже развернуть:
map операции зачастую гонятся через chain и там интермедиет как таковое нету
а reduce операции все равно через диск проходят

НО вот следующие map можно уже гнать потом сразу с памяти

по мне в спарке вот этот chain для мэпов даже больше даёт выгоды чем работа с диском

тот же tez поэтому и показывал получше результаты заметно, что мог делать map-map-map-reduce
источник

S

Stanislav in Data Engineers
есть и оборотная сторона медали - на больших данные мр работает беспроблемно, а тез начинает играть в ваньку-встаньку из-за ООМ на контейнерах
источник

S

Stanislav in Data Engineers
и внезапно мр оказывается быстрее )
источник

K

KrivdaTheTriewe in Data Engineers
Это у мейла стать была , про то , что мр иногда бывает быстрее
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
Это у мейла стать была , про то , что мр иногда бывает быстрее
и наверное у Твиттера что-то такое было
источник

S

Stanislav in Data Engineers
ну тут надо понимать, что обычно это проистекает от неоптимального хранения данных либо неоптимального кода
но тем не менее мр решает успешно проблему в лоб
источник

S

Stanislav in Data Engineers
жаль, что в хайв3 за нас все решили и движка мр больше нет
при переходе с клаудеры жизнь усложнило прилично
источник

AZ

Anton Zadorozhniy in Data Engineers
> Архитектура таких хранилищ оптимизируются для быстрого случайного доступа
Случайный доступ это все-таки random access, то есть индексный доступ по ключу, а озёра и хранилища как раз оптимизируются под сканы; возможно вы хотели сказать "оптимизируются для ad-hoc запросов"
источник

AZ

Anton Zadorozhniy in Data Engineers
И строго говоря дата лейк и стриминг это архитектурные шаблоны, высокоуровневых архитектур решений всего две: независимые витрины и нормализованный детальный слой с зависимыми витринами, а уж как пополняются витрины и слои - это детали реализации)
источник

А

Алексей in Data Engineers
Привет, подскажите, кто знает, есть ли аналоги jstat и jcmd для jvm в AIX?
Хочу снять трассировку работающего процесса + нужен дамп heap и статистика работы gc
источник