Size: a a a

2020 March 04

A

Alex in Data Engineers
@barloc там 1 или 2 фикса только апи ломало, но оно есть
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
в итоге мы начинали с hdp но сейчас уже все компоненты на apache переведены
источник

S

Stanislav in Data Engineers
все к тому идет
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
у нас он тоже чисто как метастор, но поддержку протокола и либ нужно же сделать =)
так hive3 как раз можно деплоить без самого хайва и хадупа, малюсенький пакетик, заполнили metastore-site.xml и вперед
источник

A

Alex in Data Engineers
а подключаться к нему спарк телепатией будет?

нет, там же нужно хайв либы ему
а чтобы с ними правильно работать нужно знать какие параметры методам скармливать
и вот тут появляется весь этот shim
источник

AZ

Anton Zadorozhniy in Data Engineers
в спарк мастере, как вы написали, мы собираем spark3 бранч и его используем
источник

AZ

Anton Zadorozhniy in Data Engineers
правда это пока в секретных лабораториях
источник

S

Stanislav in Data Engineers
Alex
в итоге мы начинали с hdp но сейчас уже все компоненты на apache переведены
так а зачем вы тянете все еще 3 хайв, если на апаче?
ради каких фич?
источник

A

Alex in Data Engineers
Anton Zadorozhniy
в спарк мастере, как вы написали, мы собираем spark3 бранч и его используем
ну а нам же прод миграцию уже надо делать =) и началась она больше полугода назад, когда даже превью у 3го не было, а работать нужно было
источник

A

Alex in Data Engineers
@barloc решили что уходим на апач, девопсы посмотрели что “о, текущий апач совпадает с hdp последним и там норм все пакеты готовы, давайте раскатаем его”

через какое-то время обнаружилось что нам нужно и hadoop обновить
и hive некоторые патчи хортоновские отктывать

в итоге потиху всё перевели на более свежие апач компоненты
источник

AZ

Anton Zadorozhniy in Data Engineers
а, ну в продакшене видимо да, надо кушать Hive2
источник

AZ

Anton Zadorozhniy in Data Engineers
мы просто катаем cutting edge stack, все на JDK11, экспериментальные фичи по статистике, новый мониторинг и аккаунтинг тулинг
источник

AZ

Anton Zadorozhniy in Data Engineers
но это все лабораторно
источник

A

Alex in Data Engineers
вот хортоны и клоудеры есть свои патчи на спарк, поэтому они и поставляли 3й
мы частично от них взяли, потом когда появилось и в мастере более причёсано, то забрали из мастера патчи себе

у нас просто есть несколько своих специфичных патчей для агоды + несколько классов чтобы высунуть интернал api для наших нужд
так что спарк пересобирать всё равно нужно

а где один патч, там и ещё пару прилетит
источник

A

Alex in Data Engineers
11 пока нету в хадупе у нас, слишком экспериментально, они только недавно закончили очередной этап стабилизации с 11 java
ждёмс ….
источник

AZ

Anton Zadorozhniy in Data Engineers
там неплохой тулинг в спарке кстати, действительно держать свой форк не сложно
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
11 пока нету в хадупе у нас, слишком экспериментально, они только недавно закончили очередной этап стабилизации с 11 java
ждёмс ….
у нас в CES вообще нет хадупа, это решение для миграции легаси спарк ворклоада на облачный сервис без переписывания кода, нужно чтобы все основные интерфейсы были, но при этом минимальное количество персистент систем и максимальная производительность (это наша маржа)
источник

GT

Gennady Timofeev in Data Engineers
Anton Zadorozhniy
у нас в CES вообще нет хадупа, это решение для миграции легаси спарк ворклоада на облачный сервис без переписывания кода, нужно чтобы все основные интерфейсы были, но при этом минимальное количество персистент систем и максимальная производительность (это наша маржа)
Ещё скажите, что у вас там дизагрегейтид сторедж прикручен
источник

AZ

Anton Zadorozhniy in Data Engineers
Gennady Timofeev
Ещё скажите, что у вас там дизагрегейтид сторедж прикручен
Какой сторадж? У нас просто native object store который доступен на облаке которое хочет клиент
источник