Телеграмм чат группы hadoopusers страница 3347

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2343 membersпожаловаться на группу

2021 March 09

VS

Vladislav 👻 Shishkov... in Data Engineers

В случае всяких mssql (ssis) и тд это препросчитанные данные, если говорим про molap

Или в случае какой вертики и терадаты snowflake схема и rolap, но вопросы что нужно делать джойны на больших объемах, что не позволяет в 1 секунду на запрос уложиться

В случае всяких пинотов/друид/клик данные храняться лишь в частично агрегированном виде, но за счёт архитектуры и структур данных могут считаться на лету и выдают время ниже 1с

Но нужно понимать что данные зачастую там тайм серии и обновлять сложно

а почему вы сравниваете разные базы с точки зрения джойнов?

источник

15:07пожаловаться #1

VS

Vladislav 👻 Shishkov... in Data Engineers

т.е. почему нельзя без джойнов сделать в вертике и почему нельзя сделать джойны в том же клике?

источник

15:08пожаловаться #2

K

KrivdaTheTriewe in Data Engineers

Vladislav 👻 Shishkov

т.е. почему нельзя без джойнов сделать в вертике и почему нельзя сделать джойны в том же клике?

тут о том, что источники разные, и хдфс, и кафка и прочее одновременно

источник

15:09пожаловаться #3

VS

Vladislav 👻 Shishkov... in Data Engineers

все равно не понял, особенно момент, как клик и вертику в разные разряды разнесли

источник

15:12пожаловаться #4

A

Alex in Data Engineers

Vladislav 👻 Shishkov

т.е. почему нельзя без джойнов сделать в вертике и почему нельзя сделать джойны в том же клике?

Если посмотрите я указал 2 реализации OLAP

Первая molap, препросчитаны кубы и ответы на срезы даёт достаточно быстро, поэтому часто высовывают их на интерактивные дашборды

Вторые rolap, в которых внутри обычно схема снежинка, для выборок обычно нужны джойны, что уже не быстро, чаще гоняют в аналитике и репорты, интерективные дашборды на них намного реже делают

Клика находится где-то посередине, частичная преагрегация и весёлый формат хранения, поэтому пускай и с ограниченной поддержкой sql, но можно делать интерактивные дашборды по большим объёмам данных

Но в клику нужно отдельно вставлять данные

Пинот и друид цепляется на кафку реалтайм нодой и делает данные доступными для показа с минимальной задержки (секунды после того как событие случилось, поэтому часто как дашборды для графиков и тайм серий используются)

То есть есть:
Molap
Rolap
Непонятная хрень

источник

15:56пожаловаться #5

A

Alex in Data Engineers

@dartov меня поправит где ошибся

источник

15:56пожаловаться #6

A

Alex in Data Engineers

https://en.wikipedia.org/wiki/Snowflake_schema

Snowflake schema

In computing, a snowflake schema is a logical arrangement of tables in a multidimensional database such that the entity relationship diagram resembles a snowflake shape. The snowflake schema is represented by centralized fact tables which are connected to multiple dimensions.. "Snowflaking" is a method of normalizing the dimension tables in a star schema. When it is completely normalized along all the dimension tables, the resultant structure resembles a snowflake with the fact table in the middle. The principle behind snowflaking is normalization of the dimension tables by removing low cardinality attributes and forming separate tables.

источник

16:01пожаловаться #7

AE

Alexey Evdokimov in Data Engineers

сори, чёт я немножко потерял тему разговора

источник

16:06пожаловаться #8

AE

Alexey Evdokimov in Data Engineers

о чём сейчас пойнт?

источник

16:06пожаловаться #9

A

Alex in Data Engineers

Vladislav 👻 Shishkov

все равно не понял, особенно момент, как клик и вертику в разные разряды разнесли

Делать 1 широкую таблицу в вертике не принято

Делать много разных таблиц в клике не принято, там только недавно подвезли что-то похожее на джойн, до этого я бы сказал это был лукап по второй таблице после её бродкаста

Поэтому теоретически можнт сделать, но это относится к плохим практикам

источник

16:06пожаловаться #10

VS

Vladislav 👻 Shishkov... in Data Engineers

Давайте по порядку:
1. OLAP кубы бывают трех видов: ROLAP, MOLAP, HOLAP, с точки зрения работы с СУБД они отличаются тем, что где-то идет генерация запроса sql под модель данных, а где-то суют уже готовую модель, конечный результат - это всегда плоская таблица
2. Модели данных вы можете выбирать какую угодно в любой СУБД. Вы можете без проблем подготовить конечную плоскую таблицу фактов и скормить её любому кубу и все это будет нормально работать.
3. Что касается КХ, то это тип колоночных СУБД с элементами таймсириес, заточенный в основном считать в рамках одной таблицы фактов с аналитическим окном (ибо КХ не умеет нормально в джойны). С таким же успехом и даже лучше, работают те же Vertica и Snowflake.

Из этого следуют следующие вопросы:
1. Непонятно, почему вы сравниваете OLAP кубы и СУБД?
2. Непонятно, почему под тип куба вы подставляете конкретные СУБД?

источник

16:06пожаловаться #11

VS

Vladislav 👻 Shishkov... in Data Engineers

Делать 1 широкую таблицу в вертике не принято

Делать много разных таблиц в клике не принято, там только недавно подвезли что-то похожее на джойн, до этого я бы сказал это был лукап по второй таблице после её бродкаста

Поэтому теоретически можнт сделать, но это относится к плохим практикам

кто вам такое сказал?

источник

16:06пожаловаться #12

A

Alex in Data Engineers

Что имено?

источник

16:07пожаловаться #13

VS

Vladislav 👻 Shishkov... in Data Engineers

что в вертике плохая практика широкие таблицы?

источник

16:07пожаловаться #14

IR

Igor Ruff in Data Engineers

Всем привет!
Есть хайв табличка такого вида:

+-------------------+-------+-----+
|               DATE|SEGMENT|COUNT|
+-------------------+-------+-----+
|2021-01-11 00:00:00|    Int|    1|
|2021-01-11 00:00:00|    Mid|    1|

Из нее надо получить таблицу вида:

+-------------------+-------+-----+
|               DATE|SEGMENT|COUNT|
+-------------------+-------+-----+
|2021-01-11 00:00:00|    Int|    1|
|2021-01-11 00:00:00|    Mid|    1|
|2021-01-11 00:00:00|    FI |    0|
|2021-01-11 00:00:00|  Large|    0|

Т.е для сегментов (их всего четыре), которые не посчитаны за конекретную дату, проставить нули.
И соответственно добавить эти строки. Сделать надо именно хайв запросом.
Буду благодарен за помощь!

источник

16:07пожаловаться #15

VS

Vladislav 👻 Shishkov... in Data Engineers

Между прочим, в КХ, из-за кривизны, есть справочники во внешних БД, которые именно джойнятся - это и нормальная практика

источник

16:08пожаловаться #16

A

Alex in Data Engineers

Широкие нет

Запихать всё в пару таблиц да
Так как денормализацию намного сложнее поддерживать

источник

16:08пожаловаться #17

A

Alex in Data Engineers

Vladislav 👻 Shishkov

Между прочим, в КХ, из-за кривизны, есть справочники во внешних БД, которые именно джойнятся - это и нормальная практика

Тут зависит как это называть

источник

16:09пожаловаться #18

VS

Vladislav 👻 Shishkov... in Data Engineers

Широкие нет

Запихать всё в пару таблиц да
Так как денормализацию намного сложнее поддерживать

кто вам такое сказал?

источник

16:09пожаловаться #19

A

Alex in Data Engineers

Вертику я не сравнивал с олап, а указал как одно из популярных решений, которое видел для этого дела (колумнар сторейдж)

источник

16:10пожаловаться #20