Телеграмм чат группы hadoopusers страница 4139

Битовые маски используются в бигдате - bloom filter может храниться прямо в файле, указывая в очень сжатом виде, какие там значения во всём файле примерно лежат

источник

14:50пожаловаться #4

ИК

Иван Калининский... in Data Engineers

Предлагаю развить тему. Фильтр Блума - полезная структура, есть реализация прямо в spark: dataframe.stat.bloomFilter возвратит построенный с определёнными характеристиками фильтр. Но это, скорее, родственная хеш-таблицам структура, использующая битовый массив для хранения значений хешей. К тому же вероятностная, есть регулируемый шанс ложноположительных ответов. И сделать глобальную структуру затруднительно, по крайней мере для меня. С отдельным файлом всё хорошо, для миллиона файлов - миллион отдельных фильтров, не очень-то (

Настоящие битовые индексы - это полноценные инвертированные индексы со многими возможностями. Но традиционно используются в хранилищах данных для полей с низкой селективность. Классический пример: пол человека, всего два значения (классическая интерпретация, напомню)).

И вот, меня интересует, есть ли применение и реализация битовых индексов для высокоселективных, в том числе уникальных полей?

источник

15:26пожаловаться #5

ЕГ

Евгений Глотов... in Data Engineers

У меня ещё в первый раз, когда я с ними столкнулся, возник вопрос, а можно ли этот фильтр впихать и использовать прямо в самом паркете/орке с помощью спарка

источник

16:12пожаловаться #6

ЕГ

Евгений Глотов... in Data Engineers

То что мы можем посчитать и сохранить куда-то - это конечно круто

источник

16:12пожаловаться #7

ЕГ

Евгений Глотов... in Data Engineers

Но как использовать)

источник

16:13пожаловаться #8

ИК

Иван Калининский... in Data Engineers

https://t.me/hadoopusers/98252

Anton Zadorozhniy in Data Engineers

https://github.com/apache/spark/pull/32123

источник

16:20пожаловаться #9

ИК

Иван Калининский... in Data Engineers

Недавно интересовался

источник

16:20пожаловаться #10

ЕГ

Евгений Глотов... in Data Engineers

О, интересно, это когда подвезли, недавно наверно

источник

16:23пожаловаться #11

ЕГ

Евгений Глотов... in Data Engineers

Спасибо

источник

16:23пожаловаться #12

ИК

Иван Калининский... in Data Engineers

И всё же это не глобальная структура, на каждый фильтр надо заходить отдельно

источник

16:23пожаловаться #13

Dmitry Titov in Data Engineers

> И вот, меня интересует, есть ли применение и реализация битовых индексов для высокоселективных, в том числе уникальных полей?

В любых субд?

источник

16:24пожаловаться #14

ИК

Иван Калининский... in Data Engineers

Применительно к бигдате. Хочу индексировать файловые таблицы

источник

16:26пожаловаться #15

ИК

Иван Калининский... in Data Engineers

Лексикографический индекс здесь не упомянут, а он полезный. Мне вот помог

источник

16:30пожаловаться #16

Anton Zadorozhniy in Data Engineers

Надо знать основные индексные структуры, смысл их применения, накладные расходы - это то что я обычно спрашиваю на собесе

источник

18:23пожаловаться #17

Anton Zadorozhniy in Data Engineers

Блум фильтр это не индекс в классическом определении (вторичный метод доступа), это скорее аналог табличной статистики, позволяет пропустить сканирование каких-то частей таблицы

источник

18:24пожаловаться #18

Anton Zadorozhniy in Data Engineers

Как отдельную структуру в хранилищных базах я такое не видел, но битовые маски в самих строках для словарного сжатия - общее место в строковых движках (у нас например)

источник

18:47пожаловаться #19

ИК

Иван Калининский... in Data Engineers

Спасибо, да, так в моём понимании и устроен bitmap index: словарь и сам индекс: битовое поле для позиции в словаре, указатель на расположение.

источник

19:40пожаловаться #20