Телеграмм чат группы hadoopusers страница 3251

Size: a a a

Data Engineers

2307 membersпожаловаться на группу

2021 February 14

Alex in Data Engineers

Так они колумнарные форматы :)

источник

17:19пожаловаться #1

Anton Zadorozhniy in Data Engineers

K S

Ещё вопрос:
При слиянии данных, как избежать избыточности? Допустим в миллион записей с пятью полями нужно добавить ещё 3 поля, которые для всех записей одинаковые.
Есть ли какие-то структуры данных, которые позволяют определить идентичность кусков записи и хранить их более компактно?

Речь про какой-то формат хранения, СУБД или вообще?

источник

17:20пожаловаться #2

K S in Data Engineers

Anton Zadorozhniy

Речь про какой-то формат хранения, СУБД или вообще?

Вообще.
Допустим читаю из паркета миллион записей типа
FirstName, LastName нужно добавить City, Region, Country для всех одинаковые значение типа Moscow, Region 85, Russia.

источник

17:23пожаловаться #3

K S in Data Engineers

Энкодинг же будет для каждой колонки строить отдельный индекс, хотя мы знаем, что последние три колонки идентичны для всех записей.

источник

17:25пожаловаться #4

Anton Zadorozhniy in Data Engineers

K S

В любых файловых форматах добавление делается через запись нового файла, и паркет пожмет ваши поля согласно типу (тут словарем видимо)

источник

17:26пожаловаться #5

Anton Zadorozhniy in Data Engineers

(Ну и собсно сама колоночность хранения даст основное сжатие)

источник

17:26пожаловаться #6

Anton Zadorozhniy in Data Engineers

В СУБД, там где есть настоящий ALTER и UPDATE, если вы добавляете колонки к таблице со значением по-умолчанию - это может не приводить к изменению хранимых структур, н тогда при следующем апдейте может быть больно

источник

17:33пожаловаться #7

K S in Data Engineers

Я скорее о построении индекса по трём колонкам, чем три отдельных индекса.

источник

17:37пожаловаться #8

Alex in Data Engineers

Нету в паркете индексов

источник

17:38пожаловаться #9

Alex in Data Engineers

Вообще в бигдате индексы это редкий зверь