Size: a a a

2021 September 04

.

._. in Data Engineers
Какие структуры чаще используют? Или от случая к случаю разнится?
источник

T

Tishka17 in Data Engineers
B-tree по колонке, иногда условный, иногда специфичный индекс по тексту. Иногда уникальный
источник

T

Tishka17 in Data Engineers
Вче остальные умные слова хз выражаются ли в sql, это скорее его свойства по факту
источник

ЕГ

Евгений Глотов... in Data Engineers
Битовые маски используются в бигдате - bloom filter может храниться прямо в файле, указывая в очень сжатом виде, какие там значения во всём файле примерно лежат
источник

ИК

Иван Калининский... in Data Engineers
Предлагаю развить тему. Фильтр Блума - полезная структура, есть реализация прямо в spark: dataframe.stat.bloomFilter возвратит построенный с определёнными характеристиками фильтр. Но это, скорее, родственная хеш-таблицам структура, использующая битовый массив для хранения значений хешей. К тому же вероятностная, есть регулируемый шанс ложноположительных ответов. И сделать глобальную структуру затруднительно, по крайней мере для меня. С отдельным файлом всё хорошо, для миллиона файлов - миллион отдельных фильтров, не очень-то (

Настоящие битовые индексы - это полноценные инвертированные индексы со многими возможностями. Но традиционно используются в хранилищах данных для полей с низкой селективность. Классический пример: пол человека, всего два значения (классическая интерпретация, напомню)).

И вот, меня интересует, есть ли применение и реализация битовых индексов для высокоселективных, в том числе уникальных полей?
источник

ЕГ

Евгений Глотов... in Data Engineers
У меня ещё в первый раз, когда я с ними столкнулся, возник вопрос, а можно ли этот фильтр впихать и использовать прямо в самом паркете/орке с помощью спарка
источник

ЕГ

Евгений Глотов... in Data Engineers
То что мы можем посчитать и сохранить куда-то - это конечно круто
источник

ЕГ

Евгений Глотов... in Data Engineers
Но как использовать)
источник

ИК

Иван Калининский... in Data Engineers
источник

ИК

Иван Калининский... in Data Engineers
Недавно интересовался
источник

ЕГ

Евгений Глотов... in Data Engineers
О, интересно, это когда подвезли, недавно наверно
источник

ЕГ

Евгений Глотов... in Data Engineers
Спасибо
источник

ИК

Иван Калининский... in Data Engineers
И всё же это не глобальная структура, на каждый фильтр надо заходить отдельно
источник

DT

Dmitry Titov in Data Engineers
> И вот, меня интересует, есть ли применение и реализация битовых индексов для высокоселективных, в том числе уникальных полей?

В любых субд?
источник

ИК

Иван Калининский... in Data Engineers
Применительно к бигдате. Хочу индексировать файловые таблицы
источник

ИК

Иван Калининский... in Data Engineers
Лексикографический индекс здесь не упомянут, а он полезный. Мне вот помог
источник

AZ

Anton Zadorozhniy in Data Engineers
Надо знать основные индексные структуры, смысл их применения, накладные расходы - это то что я обычно спрашиваю на собесе
источник

AZ

Anton Zadorozhniy in Data Engineers
Блум фильтр это не индекс в классическом определении (вторичный метод доступа), это скорее аналог табличной статистики, позволяет пропустить сканирование каких-то частей таблицы
источник

AZ

Anton Zadorozhniy in Data Engineers
Как отдельную структуру в хранилищных базах я такое не видел, но битовые маски в самих строках для словарного сжатия - общее место в строковых движках (у нас например)
источник

ИК

Иван Калининский... in Data Engineers
Спасибо, да, так в моём понимании и устроен bitmap index: словарь и сам индекс: битовое поле для позиции в словаре, указатель на расположение.
источник