Телеграмм чат группы hadoopusers страница 3252

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2307 membersпожаловаться на группу

2021 February 14

A

Alex in Data Engineers

Но это не совсем индекс, когда вы будете выбирать "все записи где слово равно m", у вас не будет инверсного индекса, вы точно так же будете сканировать весь столбец

источник

17:47пожаловаться #1

A

Alex in Data Engineers

Но подымать с диска чуть меньше данных, так как достаточно взять словарь, а потом фильтровать колонку на указанное число

источник

17:48пожаловаться #2

KS

K S in Data Engineers

А понятно, значит мы говорим об индексе сжатия, но не поисковом индексе.

источник

17:49пожаловаться #3

A

Alex in Data Engineers

Да

источник

17:49пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

Но подымать с диска чуть меньше данных, так как достаточно взять словарь, а потом фильтровать колонку на указанное число

В базах и манипуляции (джоины, группировки) часто идут по сжатым значениям, декодирование происходит уже при показе людям или выгрузке

источник

17:50пожаловаться #5

A

Alex in Data Engineers

Ну я упрощал :)

источник

17:51пожаловаться #6

KS

K S in Data Engineers

Спасибо, парни. Это была хорошая и познавательная дискуссия.

источник

17:52пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Ещё если в базе джоины стоят дёшево, то можно вообще ничего не менять в исходной таблице, а создать новую таблицу с дополнительными колонками, а пользователям показывать через вьюшку с джоином

источник

17:55пожаловаться #8

KS

K S in Data Engineers

Anton Zadorozhniy

Ещё если в базе джоины стоят дёшево, то можно вообще ничего не менять в исходной таблице, а создать новую таблицу с дополнительными колонками, а пользователям показывать через вьюшку с джоином

Хорошая идея!

источник

18:12пожаловаться #9

KS

K S in Data Engineers

В реляционках я никак не могу въехать как правильно определить functional dependencies между колонками.

источник

18:14пожаловаться #10

KS

K S in Data Engineers

В книжке об этом написано пару параграфов, а как конкретно это работает непонятно.

источник

18:15пожаловаться #11

NB

Nikita Bakanchev in Data Engineers

В книжке об этом написано пару параграфов, а как конкретно это работает непонятно.

Обычно выбирается на уровне бизнес-смысла, условно говоря если ты знаешь, что система позволяет идентифицировать сущность исходя из x1, x2, то и получаешь ФЗ (x1, x2) -> (x3, x4, ..., xn). Если есть понимание, что атрибут x однозначно идентифицирует атрибут y, то получаешь ФЗ: x -> y

источник

18:30пожаловаться #12

NB

Nikita Bakanchev in Data Engineers

Мне кажется, обычно все делают интуитивно, а не реальной loseless decomposition для нормализации

источник

18:31пожаловаться #13

NB

Nikita Bakanchev in Data Engineers

Но м.б. я не прав

источник

18:31пожаловаться #14

R

Rodion in Data Engineers

@s333kr про orc есть неплохая статья http://blog.skahin.ru/2019/08/orc.html

Оптимизация хранения данных в Orc для Hive

ORC: формат файла Параметры по умолчанию Максимальная доля уникальных значений для создания справочника ...

источник

18:32пожаловаться #15

M

Mino in Data Engineers

Хорошая идея!

Раньше для отчётов в запросы добавляли виртуальные столбцы, типа select fio, "Moscow" as city from table1

источник

19:35пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Mino

Раньше для отчётов в запросы добавляли виртуальные столбцы, типа select fio, "Moscow" as city from table1

Да там и CASE в пяток экранов навернуть могли) так себе практика конечно, но если организация умеет хорошо работать с метаданными то жить можно

источник

19:40пожаловаться #17

M

Mino in Data Engineers

Да, сильно зависит какая задача стоит

источник

19:41пожаловаться #18

ЕГ

Евгений Глотов... in Data Engineers

Anton Zadorozhniy

Ещё если в базе джоины стоят дёшево, то можно вообще ничего не менять в исходной таблице, а создать новую таблицу с дополнительными колонками, а пользователям показывать через вьюшку с джоином

А есть такие базы?)

источник

21:16пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

Евгений Глотов

А есть такие базы?)

МРР базы для аналитики

источник

21:34пожаловаться #20