Size: a a a

2021 February 14

A

Alex in Data Engineers
Но это не совсем индекс, когда вы будете выбирать "все записи где слово равно m", у вас не будет инверсного индекса, вы точно так же будете сканировать весь столбец
источник

A

Alex in Data Engineers
Но подымать с диска чуть меньше данных, так как достаточно взять словарь, а потом фильтровать колонку на указанное число
источник

KS

K S in Data Engineers
А понятно, значит мы говорим об индексе сжатия, но не поисковом индексе.
источник

A

Alex in Data Engineers
Да
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Но подымать с диска чуть меньше данных, так как достаточно взять словарь, а потом фильтровать колонку на указанное число
В базах и манипуляции (джоины, группировки) часто идут по сжатым значениям, декодирование происходит уже при показе людям или выгрузке
источник

A

Alex in Data Engineers
Ну я упрощал :)
источник

KS

K S in Data Engineers
Спасибо, парни. Это была хорошая и познавательная дискуссия.
источник

AZ

Anton Zadorozhniy in Data Engineers
Ещё если в базе джоины стоят дёшево, то можно вообще ничего не менять в исходной таблице, а создать новую таблицу с дополнительными колонками, а пользователям показывать через вьюшку с джоином
источник

KS

K S in Data Engineers
Anton Zadorozhniy
Ещё если в базе джоины стоят дёшево, то можно вообще ничего не менять в исходной таблице, а создать новую таблицу с дополнительными колонками, а пользователям показывать через вьюшку с джоином
Хорошая идея!
источник

KS

K S in Data Engineers
В реляционках я никак не могу въехать как правильно определить functional dependencies между колонками.
источник

KS

K S in Data Engineers
В книжке об этом написано пару параграфов, а как конкретно это работает непонятно.
источник

NB

Nikita Bakanchev in Data Engineers
K S
В книжке об этом написано пару параграфов, а как конкретно это работает непонятно.
Обычно выбирается на уровне бизнес-смысла, условно говоря если ты знаешь, что система позволяет идентифицировать сущность исходя из x1, x2, то и получаешь ФЗ (x1, x2) -> (x3, x4, ..., xn). Если есть понимание, что атрибут x однозначно идентифицирует атрибут y, то получаешь ФЗ: x -> y
источник

NB

Nikita Bakanchev in Data Engineers
Мне кажется, обычно все делают интуитивно, а не реальной loseless decomposition для нормализации
источник

NB

Nikita Bakanchev in Data Engineers
Но м.б. я не прав
источник

R

Rodion in Data Engineers
@s333kr про orc есть неплохая статья http://blog.skahin.ru/2019/08/orc.html
источник

M

Mino in Data Engineers
K S
Хорошая идея!
Раньше для отчётов в запросы добавляли виртуальные столбцы, типа select fio, "Moscow" as city from table1
источник

AZ

Anton Zadorozhniy in Data Engineers
Mino
Раньше для отчётов в запросы добавляли виртуальные столбцы, типа select fio, "Moscow" as city from table1
Да там и CASE в пяток экранов навернуть могли) так себе практика конечно, но если организация умеет хорошо работать с метаданными то жить можно
источник

M

Mino in Data Engineers
Да, сильно зависит какая задача стоит
источник

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
Ещё если в базе джоины стоят дёшево, то можно вообще ничего не менять в исходной таблице, а создать новую таблицу с дополнительными колонками, а пользователям показывать через вьюшку с джоином
А есть такие базы?)
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
А есть такие базы?)
МРР базы для аналитики
источник