Size: a a a

2021 March 05

e

er@essbase.ru in Data Engineers
На sql можно фичи считать через where  и через case (select).  Например в Oracle предпочтительно в where только резать большие объёмы данных а логику нести в case.
источник

e

er@essbase.ru in Data Engineers
Это прям заметно когда несколько сот млн лопатишь. Большой where не имеет шансов завершиться
источник

NN

No Name in Data Engineers
Народ, а вообще, в каких кейсах сейчас hive на mapreduce/tez работает лучше, чем спарк?
источник

P

Pavel in Data Engineers
No Name
Народ, а вообще, в каких кейсах сейчас hive на mapreduce/tez работает лучше, чем спарк?
А импала? Не?
источник

P

Pavel in Data Engineers
Повелитель Бури
Доброе утро коллеги! Скажите пожалуйста бест практис по масштабированию кластера сейчас есть 10 виртуалок по 10тб ,4рам, 2ядра для hdfs

Хочется в облаке поднять временные машинки и выделять спарк ресурсы ,потом гасить. Кто - то сталкивался?
Куб, а на него спарк
источник

АР

Андрей Романов... in Data Engineers
Pavel
А импала? Не?
кстати, а кто-нибудь сейчас пользуется импалой?

какие у нее сценарии использования?
источник

NN

No Name in Data Engineers
Pavel
А импала? Не?
Вообще про нее ничего не знаю,если честно, и имел в виду не ее все таки.
источник

P

Pavel in Data Engineers
Андрей Романов
кстати, а кто-нибудь сейчас пользуется импалой?

какие у нее сценарии использования?
А че нет?)) как сейчас тоже хз. Пару лет назад все аналитики в хдфс через нее ходили, по 100тб вытаскивали. На прошлой работе
источник

АР

Андрей Романов... in Data Engineers
Pavel
А че нет?)) как сейчас тоже хз. Пару лет назад все аналитики в хдфс через нее ходили, по 100тб вытаскивали. На прошлой работе
ааа, аналитика

понял принял
источник

AK

Aliaksandr Kokhna in Data Engineers
а сейчас аналитики что используют ?
источник

ИК

Иван Калининский... in Data Engineers
No Name
Народ, а вообще, в каких кейсах сейчас hive на mapreduce/tez работает лучше, чем спарк?
Был случай три года назад с оконными функциями, который отрабатывал на hive-mr, но падал на спарк. Таблица довольно большая, 20 миллиардов. Потом стал делать по-другому, сначала группировка, фильтры, только потом оконная функция и спарк стал работать лучше даже на самых больших таблицах
источник

NN

No Name in Data Engineers
Иван Калининский
Был случай три года назад с оконными функциями, который отрабатывал на hive-mr, но падал на спарк. Таблица довольно большая, 20 миллиардов. Потом стал делать по-другому, сначала группировка, фильтры, только потом оконная функция и спарк стал работать лучше даже на самых больших таблицах
Ну т.е. в голову тоже не приходят определенные кейсы, в которых вместо спарка стоит предпочесть хайв? (mr в твоём случае)
источник

ИК

Иван Калининский... in Data Engineers
No Name
Ну т.е. в голову тоже не приходят определенные кейсы, в которых вместо спарка стоит предпочесть хайв? (mr в твоём случае)
Нет, просто надо уметь готовить спарк))
источник

e

er@essbase.ru in Data Engineers
Ещё один вопрос нуба про hive . Как работает sum с null нужно ли его проверить на *isnulll* с заменой на 0 ?
источник

NN

No Name in Data Engineers
er@essbase.ru
Ещё один вопрос нуба про hive . Как работает sum с null нужно ли его проверить на *isnulll* с заменой на 0 ?
Мне кажется, это быстрее самому протестить)
P.s. я бы подсказал, но я и сам не знаю)
источник

P

Pavel in Data Engineers
Aliaksandr Kokhna
а сейчас аналитики что используют ?
Кликхаус
источник

AS

Andrey Smirnov in Data Engineers
Roman
hive on spark - это вообще не очень хороший путь. Почему решили его выбрать, а не hive on tez?
а можно почему вы так считаете?
источник

R

Roman in Data Engineers
Pavel
Кликхаус
Ну это лишь в одном из направлений.
Вообще ещё athena(и аналоги в azure и google cloud), presto, а кто - то на гринпламе.
Кто - то на редшифте. По - разному, короче.
источник

R

Roman in Data Engineers
Andrey Smirnov
а можно почему вы так считаете?
1) Потому что затаскивали нормально его долго. Вот жира таска сборная, в рамках которой это делали:
https://issues.apache.org/jira/browse/HIVE-7292
и делали это много лет, и как я понимаю, все ещё до конца не доделали.
2) Часто видел инфу о том, что hive on spark - это очень не стабильно.
3) Мой личный опыт - были попытка перейти с tez движка на spark движок на свежих версиях hive. В итоге на спарк движке некоторые запросы вылетали с OOM.
4) Обновления спарка в этот движок затаскивались с большим лагом, т.е. там реально долго был спарк 1.6, когда уже вовсю на 2.х жили люди.
источник

А

Алексей in Data Engineers
hive все же бд, у нее есть буферный кэш (в новых версиях), есть общая история всех запросов (может появятся какието инструменты для управления планами). До spark 3, в hive уже были join predicate pushdown,
Число контейнеров для reduce определяется автоматом, файлы на выходе мержатся, если их много, бакетирование на уровне метастора для таблиц, который можно перееиспользовать, автовыделение ресурсов под запрос
источник