Size: a a a

2021 February 09

AZ

Anton Zadorozhniy in Data Engineers
ILYA
А в целом... Какие лучшие практики использования ванили? Ну там вроде нет никаких готовых средств управления типа как у клаудеры или арена даты на основе амбари или чего то аналогичного. Получается что надо ставить все самому, вручную настраивать в том числе и тот же керберос, а далее писать какие то свои утилиты для управления этим всем, так как без них я не представляю как рулить кластером на десятки/сотни нод ? Например таже выдача прав , прикрутить тот же ranger/sentry к ванили выглядит очень не простой задачей... Или может есть какие то готовые утилиты что сильно облегчают жизнь для такой задачи?
вся идея использования ванили в том что организация становится master of my own destiny, она полагается на ASF в части гарантий по коду, а дальше все сама разрабатывает.. а если она не хочет или не умеет сама разрабатывать тулинг - она может заплатить за него вендорам дистрибутивов или консалтинговым компаниям..
источник

e

er@essbase.ru in Data Engineers
Есть ли  вариант на старом cdh подымать версии spark ,hivе etc ? И жить так  ещё несколько лет ?
источник

A

Alex in Data Engineers
да
источник

E

Evgeny in Data Engineers
а потом что?)
источник

A

Alex in Data Engineers
правда зависит от того как вы запускаете спарк
источник

A

Alex in Data Engineers
у нас на старом клоудере кластере 5.8 спарк сейчас 2.4.5
источник

E

Evgeny in Data Engineers
получается еще больнее ванили ;)
источник

I

ILYA in Data Engineers
Anton Zadorozhniy
вся идея использования ванили в том что организация становится master of my own destiny, она полагается на ASF в части гарантий по коду, а дальше все сама разрабатывает.. а если она не хочет или не умеет сама разрабатывать тулинг - она может заплатить за него вендорам дистрибутивов или консалтинговым компаниям..
ASF это Apache? В целом концепция ясна. Спасибо
источник

A

Alex in Data Engineers
да
источник

D

Dmitry in Data Engineers
Renarde
а зачем при таком сетапе вообще ставить Hadoop? не проще ли раскатить k8s поверх этих ресурсов, minio + spark on k8s + presto + superset? Вроде для всех технологий даже helm chart-ы есть
а не будет ли это 3 шага назад ? spark on k8s не знает про локалити, presto будет ли перформить на фоне impala ?
источник

D

Dmitry in Data Engineers
и вообще, кто-то в серьез гоняет спарк на k8s, он вроде лишь пару месяцев назад прод реди объявлен ?
источник

A

Alex in Data Engineers
а зачем локалити если оно в объектом хранилище будет лежать совсем не на той ноде
источник

A

Alex in Data Engineers
всё же зависит от задач, у него может и хватит всего
источник

D

Dmitry in Data Engineers
Alex
а зачем локалити если оно в объектом хранилище будет лежать совсем не на той ноде
о том и речь.  будет ли это работать, если спарк там, а данные сям
источник

A

Alex in Data Engineers
у людей многих работает
но как обычно везде есть нюансы

что в кубике
что в хадупе
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry
о том и речь.  будет ли это работать, если спарк там, а данные сям
На хороших сетях дата локалити для батча не нужна
источник

AZ

Anton Zadorozhniy in Data Engineers
Диски узкое место, не сеть
источник

D

Dmitry in Data Engineers
диски это hdd или ssd ?
источник

KS

K S in Data Engineers
Есть ли смысл разделить Престо на два физических кластера, для разных типов нагрузки?
источник

KS

K S in Data Engineers
В полиси уже есть разделение, но есть зависимость - первый тип создает данные для второго типа нагрузки.
источник