Телеграмм чат группы hadoopusers страница 3323

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2335 membersпожаловаться на группу

2021 March 05

e

er@essbase.ru in Data Engineers

На sql можно фичи считать через where и через case (select). Например в Oracle предпочтительно в where только резать большие объёмы данных а логику нести в case.

источник

10:12пожаловаться #1

e

er@essbase.ru in Data Engineers

Это прям заметно когда несколько сот млн лопатишь. Большой where не имеет шансов завершиться

источник

10:13пожаловаться #2

NN

No Name in Data Engineers

Народ, а вообще, в каких кейсах сейчас hive на mapreduce/tez работает лучше, чем спарк?

источник

10:20пожаловаться #3

P

Pavel in Data Engineers

Народ, а вообще, в каких кейсах сейчас hive на mapreduce/tez работает лучше, чем спарк?

А импала? Не?

источник

10:22пожаловаться #4

P

Pavel in Data Engineers

Повелитель Бури

Доброе утро коллеги! Скажите пожалуйста бест практис по масштабированию кластера сейчас есть 10 виртуалок по 10тб ,4рам, 2ядра для hdfs

Хочется в облаке поднять временные машинки и выделять спарк ресурсы ,потом гасить. Кто - то сталкивался?

Куб, а на него спарк

источник

10:22пожаловаться #5

АР

Андрей Романов... in Data Engineers

А импала? Не?

кстати, а кто-нибудь сейчас пользуется импалой?

какие у нее сценарии использования?

источник

10:23пожаловаться #6

NN

No Name in Data Engineers

А импала? Не?

Вообще про нее ничего не знаю,если честно, и имел в виду не ее все таки.

источник

10:23пожаловаться #7

P

Pavel in Data Engineers

Андрей Романов

кстати, а кто-нибудь сейчас пользуется импалой?

какие у нее сценарии использования?

А че нет?)) как сейчас тоже хз. Пару лет назад все аналитики в хдфс через нее ходили, по 100тб вытаскивали. На прошлой работе

источник

10:28пожаловаться #8

АР

Андрей Романов... in Data Engineers

А че нет?)) как сейчас тоже хз. Пару лет назад все аналитики в хдфс через нее ходили, по 100тб вытаскивали. На прошлой работе

ааа, аналитика

понял принял

источник

10:30пожаловаться #9

AK

Aliaksandr Kokhna in Data Engineers

а сейчас аналитики что используют ?

источник

10:30пожаловаться #10

ИК

Иван Калининский... in Data Engineers

Народ, а вообще, в каких кейсах сейчас hive на mapreduce/tez работает лучше, чем спарк?

Был случай три года назад с оконными функциями, который отрабатывал на hive-mr, но падал на спарк. Таблица довольно большая, 20 миллиардов. Потом стал делать по-другому, сначала группировка, фильтры, только потом оконная функция и спарк стал работать лучше даже на самых больших таблицах

источник

10:31пожаловаться #11

NN

No Name in Data Engineers

Иван Калининский

Был случай три года назад с оконными функциями, который отрабатывал на hive-mr, но падал на спарк. Таблица довольно большая, 20 миллиардов. Потом стал делать по-другому, сначала группировка, фильтры, только потом оконная функция и спарк стал работать лучше даже на самых больших таблицах

Ну т.е. в голову тоже не приходят определенные кейсы, в которых вместо спарка стоит предпочесть хайв? (mr в твоём случае)

источник

10:34пожаловаться #12

ИК

Иван Калининский... in Data Engineers

Ну т.е. в голову тоже не приходят определенные кейсы, в которых вместо спарка стоит предпочесть хайв? (mr в твоём случае)

Нет, просто надо уметь готовить спарк))

источник

10:34пожаловаться #13

e

er@essbase.ru in Data Engineers

Ещё один вопрос нуба про hive . Как работает sum с null нужно ли его проверить на *isnulll* с заменой на 0 ?

источник

10:41пожаловаться #14

NN

No Name in Data Engineers

Ещё один вопрос нуба про hive . Как работает sum с null нужно ли его проверить на *isnulll* с заменой на 0 ?

Мне кажется, это быстрее самому протестить)
P.s. я бы подсказал, но я и сам не знаю)

источник

10:42пожаловаться #15

P

Pavel in Data Engineers

Aliaksandr Kokhna

а сейчас аналитики что используют ?

Кликхаус

источник

10:44пожаловаться #16

AS

Andrey Smirnov in Data Engineers

hive on spark - это вообще не очень хороший путь. Почему решили его выбрать, а не hive on tez?

а можно почему вы так считаете?

источник

10:58пожаловаться #17

R

Roman in Data Engineers

Кликхаус

Ну это лишь в одном из направлений.
Вообще ещё athena(и аналоги в azure и google cloud), presto, а кто - то на гринпламе.
Кто - то на редшифте. По - разному, короче.

источник

10:59пожаловаться #18

R

Roman in Data Engineers

а можно почему вы так считаете?

1) Потому что затаскивали нормально его долго. Вот жира таска сборная, в рамках которой это делали:
https://issues.apache.org/jira/browse/HIVE-7292
и делали это много лет, и как я понимаю, все ещё до конца не доделали.
2) Часто видел инфу о том, что hive on spark - это очень не стабильно.
3) Мой личный опыт - были попытка перейти с tez движка на spark движок на свежих версиях hive. В итоге на спарк движке некоторые запросы вылетали с OOM.
4) Обновления спарка в этот движок затаскивались с большим лагом, т.е. там реально долго был спарк 1.6, когда уже вовсю на 2.х жили люди.

источник

11:06пожаловаться #19

А

Алексей in Data Engineers

hive все же бд, у нее есть буферный кэш (в новых версиях), есть общая история всех запросов (может появятся какието инструменты для управления планами). До spark 3, в hive уже были join predicate pushdown,
Число контейнеров для reduce определяется автоматом, файлы на выходе мержатся, если их много, бакетирование на уровне метастора для таблиц, который можно перееиспользовать, автовыделение ресурсов под запрос

источник

11:09пожаловаться #20