Size: a a a

2021 February 10

TT

Tsh Tsh in Data Engineers
Повелитель Бури
Я поставил cloudera 6.3.1. Через paracels . Hive в ней 2.1.1. Хочется hive 3. Отсюда и вопрос )
Будешь долго мучаться 👻
Ищи на гитхабе парсел, может кто уже собрал
источник

ПБ

Повелитель Бури... in Data Engineers
Tsh Tsh
Будешь долго мучаться 👻
Ищи на гитхабе парсел, может кто уже собрал
Может копать в сторону hdp? А то с 6.3.3 cloudera стала платной 😡
источник

A

Alexander in Data Engineers
Подскажите, как лучше всего задизайнить инкрементальный ETL, который агрегирует ивенты в сессии и считает для каждой сессии определённые метрики. Вопрос в сессиях, которые могли начаться раньше инкремента - как правильно пересчитать для них метрики? Понятно, что мы можем сделать coalesce инкремента с предыдущим состоянием. Но если к примеру у нас одна из метрик это сумма ивентов, то как избежать многоразового суммирования, если потребуется несколько раз бэкфиллить таблицу?
источник

N

Nikita Blagodarnyy in Data Engineers
Складывай суммы в разрезе инкрементов. Потом бери по сессиям все их инкременты и пересчитывай целиком.
источник

A

Alexander in Data Engineers
Nikita Blagodarnyy
Складывай суммы в разрезе инкрементов. Потом бери по сессиям все их инкременты и пересчитывай целиком.
Т.е. историю метрик для каждого инкремента хранить?
источник

N

Nikita Blagodarnyy in Data Engineers
Ну ты ж сыряк наваливаешь куда-то?
источник

A

Alexander in Data Engineers
Nikita Blagodarnyy
Ну ты ж сыряк наваливаешь куда-то?
Интересная мысль, спасибо 👍
источник

N

Nikita Blagodarnyy in Data Engineers
Такие упражнения удобно на клике делать. У него как бы 2 эффективных способа доступа-по партициям и по первичному индексу. В итоге можно сделать партиции по инкременту, а индекс - по бизес полю. И в итоге наваливаешь одну и ту же сессию в много разных партиций, а потом одну сессию по индексу считываешь со всех партиций.
источник

N

Nikita Blagodarnyy in Data Engineers
Можно не морочиться со связкой "инкремент-бизнес сущность" многие ко многим.
источник

e

er@essbase.ru in Data Engineers
Повелитель Бури
Может копать в сторону hdp? А то с 6.3.3 cloudera стала платной 😡
hdp тоже cloudera и тоже $$. Вот смотрю в сторону  mapR , но вроде там нет 3го хадупа.
источник

N

Nikita Blagodarnyy in Data Engineers
hdp говорят можно самому собрать забесплатно
источник

NN

No Name in Data Engineers
Nikita Blagodarnyy
hdp говорят можно самому собрать забесплатно
Ну там вроде есть какая-то версия готовая с относительно старыми пакетами, но вроде ничего не мешает поверх накрутить всякого, если я ничего не путаю.
источник
2021 February 11

AE

Alex Edwards in Data Engineers
This is what I need to know
источник

S

Samat in Data Engineers
Добрый день! У меня hue был на той же машине что hive после переезда hue на другую машину появилась ошибка "Error when fetching the logs of the operation." После проверки конфига hive-site.xml заметил директорию
 <property>
     <name>hive.server2.logging.operation.log.location</name>
     <value>/tmp/hive/operation_logs</value>
   </property>
Нужно ли изменить патч чтобы стучаться из иной машины в машину где стоит hive?
источник

АС

Артур Семенов... in Data Engineers
Привет, есть в хайве какая-нибудь инфа о том, кто из пользователей последний раз очищал/перезаписывал таблицу ?
источник

VM

Victor Mikhaylov in Data Engineers
No Name
Ну там вроде есть какая-то версия готовая с относительно старыми пакетами, но вроде ничего не мешает поверх накрутить всякого, если я ничего не путаю.
Ну, если вы готовы потратить на накручивание всякого и отладку примерно месяц времени, то конечно
источник

NN

No Name in Data Engineers
Victor Mikhaylov
Ну, если вы готовы потратить на накручивание всякого и отладку примерно месяц времени, то конечно
Так не обо мне речь. Может, товарищ готов.
источник

NN

No Name in Data Engineers
Victor Mikhaylov
Ну, если вы готовы потратить на накручивание всякого и отладку примерно месяц времени, то конечно
Все равно быстрее, чем свой амбари писать.
источник

ПБ

Повелитель Бури... in Data Engineers
Странно, что здесь никак не отреагировали что с 1.02.21 клоудера и hdp платные ) у всех  энтеопрайз? А что там с bigtop? )
источник

ПБ

Повелитель Бури... in Data Engineers
Повелитель Бури
Странно, что здесь никак не отреагировали что с 1.02.21 клоудера и hdp платные ) у всех  энтеопрайз? А что там с bigtop? )
источник