Size: a a a

2019 September 05

DM

David Manukian in Data Engineers
Привет всем, есть кто работал с Apache hudi?
источник

S

Stanislav in Data Engineers
O. Petr
Из hbase в питонесы без подводных камней происходит ?
Рест?
источник

YE

Yury Emelyanov in Data Engineers
David Manukian
Привет всем, есть кто работал с Apache hudi?
Привет! Приходи на митап, ссылка выше. В СберДате пилотировали
источник

В

Вадим in Data Engineers
Описание сделай внутри телеграма. Что бы было понятно о чем вообще речь
источник

GP

Grigory Pomadchin in Data Engineers
Sberbank HugeData Platform. Конференция разработчиков; по всем вопросам пинать @Maria_Sol и @yuryemelyanov

https://blockt-events.timepad.ru/event/1014139
источник

YE

Yury Emelyanov in Data Engineers
Grigory Pomadchin
Sberbank HugeData Platform. Конференция разработчиков; по всем вопросам пинать @Maria_Sol и @yuryemelyanov

https://blockt-events.timepad.ru/event/1014139
Добавь в контакты место меня @Maria_Sol
источник

IG

Ivan Gagarkin in Data Engineers
Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие  еще варианты могут быть?
источник

IR

Igor Ruff in Data Engineers
Ivan Gagarkin
Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие  еще варианты могут быть?
Скупом не пробовал?
источник

YI

Yukari I in Data Engineers
Ivan Gagarkin
Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие  еще варианты могут быть?
А код вьюхи никак не оптимизируется? Может запросом из вьюхи можно вытащить данные, и захинтовать еще?
источник

IG

Ivan Gagarkin in Data Engineers
Igor Ruff
Скупом не пробовал?
Нет. А будет разница?
источник

IG

Ivan Gagarkin in Data Engineers
Yukari I
А код вьюхи никак не оптимизируется? Может запросом из вьюхи можно вытащить данные, и захинтовать еще?
Ты имеешь ввиду вытащить таблицы из базы и вьюху собрать в хадупе?
источник

SS

Stanislav Shpilevoy in Data Engineers
Экспортнуть в файл данные вьюхи из терадаты?
источник

A

Alex in Data Engineers
Года идут, а csv все правит миром
источник

AP

Alexander Piminov in Data Engineers
Если нет возможности оптимизировать код view, чтобы "сместить" потребление ресурсов, можно попробовать разбить view логически, например, если у тебя звезда-снежинка с небольшими измерениями, то попробовать поделить таблицу фактов по партициям (если они есть). И ты уверен, что материализованной версии нет или нет возможности ее создать?
источник

AZ

Anton Zadorozhniy in Data Engineers
Ivan Gagarkin
Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие  еще варианты могут быть?
материализовать в таблицу и выкачать TDCH (Teradata Connector for Hadoop)
источник

AZ

Anton Zadorozhniy in Data Engineers
он качает протоколом тпамп, сразу со всех узлов, очень быстро
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
ну и если вам таблица нужна для алгоритма какого-нибудь, то можно поставить датафреймы для терадаты, написать что нужно, там может и пушдаун какой-то будет который снизит объем данных между спарком и терадаты
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
а может даже и все можно прямо в терадатке посчитать)
источник