Телеграмм чат группы hadoopusers страница 1600

селект отличается от материализации тем что селект - это материализация (в спул) + выкачка на клиента, мб на материализации ему хватит ресурсов и дальше качать во много потоков

источник

22:07пожаловаться #3

Anton Zadorozhniy in Data Engineers

если материализацию сравнивать с селект звезда без ограничений - материализаци легче для системы

источник

22:08пожаловаться #4

Anton Zadorozhniy in Data Engineers

(для больших результатов это справедливо почти для любой массивно-параллельной СУБД, кроме чистых колоночников)

источник

22:09пожаловаться #5

Nikita Blagodarnyy in Data Engineers

Буферизация и отдача клиенту - это дорого?

источник

22:11пожаловаться #6

Anton Zadorozhniy in Data Engineers

не важно это дорого или нет, это дополнительная операция

источник

22:11пожаловаться #7

Anton Zadorozhniy in Data Engineers

ну и вообще конечно, он скорее всего через JDBC это делал, это надо все через один ПДЕ (узел) прокачать

источник

22:12пожаловаться #8

Anton Zadorozhniy in Data Engineers

с любой массивно-паралелльной СУБД надо пользоваться параллелизмом на всех операциях, как-то создание промежуточных результатов, выгрузка или загрузка, а JDBC был придуман во времена когда это не было так актуально

источник

22:18пожаловаться #9

Anton Zadorozhniy in Data Engineers

у терадаты есть спарк адаптер неплохой, но я уверен что товарищь им не пользуется, иначе бы такого вопроса изначально не возникло бы

источник

22:18пожаловаться #10

Ivan Gagarkin in Data Engineers

Ivan Gagarkin

Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие еще варианты могут быть?

Я соврал. Не терадата, а о обычный оркал. Так что да, jdbc

источник

22:23пожаловаться #11

Anton Zadorozhniy in Data Engineers

Ivan Gagarkin

Я соврал. Не терадата, а о обычный оркал. Так что да, jdbc

мб экзадата? это такой оракл, которого покусала нетизза 🙂

источник

22:25пожаловаться #12

Ivan Gagarkin in Data Engineers

Точно )
Всё усложнено тем, что база не наша, а гос компании. Так что всё, что надо делать на стороне базы придётся долго согласовывать

источник