Телеграмм чат группы hadoopusers страница 2159

Ребят, привет у меня короч встал вопрос: Почему при сегментировании данных(напр. как в гринпламе) пропадет эффективность b-деревьев ? (мол индексы в гринпламе нет смысла юзать)

источник

12:51пожаловаться #5

Алексей in Data Engineers

Может потому что там в основном аналитические запросы по полной партиции и сегменту?

источник

13:07пожаловаться #6

Sergey Ufimtsev in Data Engineers

Всё так, но если аналитические запросы подразумевают джоины, то не было бы быстрее если бы данные на одном сегменте имели индексы, для еще более быстрого джоина ?

источник

13:25пожаловаться #7

Vitaly Pismarev in Data Engineers

Sergey Ufimtsev

Джойн по индексу далеко не всегда быстрее джойна без индекса

источник

13:26пожаловаться #8

Pavel Ivanovsky in Data Engineers

Vitaly Pismarev

Джойн по индексу далеко не всегда быстрее джойна без индекса

это как так? full scan быстрее доступа по индексу?

источник

13:28пожаловаться #9

Алексей in Data Engineers

зачем джойну индекс, если это hash join?

источник

13:29пожаловаться #10

Vitaly Pismarev in Data Engineers

Pavel Ivanovsky

это как так? full scan быстрее доступа по индексу?

Мне кажется это тема тянет на отдельный длинный разговор ) Но зависит от % запрашиваемых строк в таблице.

источник

13:30пожаловаться #11

Sergey Ufimtsev in Data Engineers

А где про это почитать? Я понял бы если данные были бы еще и отсоритрованы по ключу сегмента, то за N. Если рассматривать каждую ноду гринплама как полноценный постгрес сервер, то по реляционной логике - хочешь джоины - делай индексы.

источник

13:30пожаловаться #12

Pavel Ivanovsky in Data Engineers

Алексей

зачем джойну индекс, если это hash join?

ну hash это как бы есть индекс

источник

13:30пожаловаться #13

Алексей in Data Engineers

вопрос был про btree, насчет pg не уверен, но это обычно дерево, не хэш

источник

13:30пожаловаться #14