Телеграмм чат группы hadoopusers страница 1599

Sberbank HugeData Platform. Конференция разработчиков; по всем вопросам пинать @Maria_Sol и @yuryemelyanov

https://blockt-events.timepad.ru/event/1014139

источник

14:52пожаловаться #5

YE

Yury Emelyanov in Data Engineers

Grigory Pomadchin

Sberbank HugeData Platform. Конференция разработчиков; по всем вопросам пинать @Maria_Sol и @yuryemelyanov

https://blockt-events.timepad.ru/event/1014139

Добавь в контакты место меня @Maria_Sol

источник

15:07пожаловаться #6

IG

Ivan Gagarkin in Data Engineers

Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие еще варианты могут быть?

источник

19:45пожаловаться #7

IR

Igor Ruff in Data Engineers

Ivan Gagarkin

Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие еще варианты могут быть?

Скупом не пробовал?

источник

19:48пожаловаться #8

YI

Yukari I in Data Engineers

Ivan Gagarkin

Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие еще варианты могут быть?

А код вьюхи никак не оптимизируется? Может запросом из вьюхи можно вытащить данные, и захинтовать еще?

источник

19:50пожаловаться #9

IG

Ivan Gagarkin in Data Engineers

Igor Ruff

Скупом не пробовал?

Нет. А будет разница?

источник

19:51пожаловаться #10

IG

Ivan Gagarkin in Data Engineers

Yukari I

А код вьюхи никак не оптимизируется? Может запросом из вьюхи можно вытащить данные, и захинтовать еще?

Ты имеешь ввиду вытащить таблицы из базы и вьюху собрать в хадупе?

источник

19:51пожаловаться #11

SS

Stanislav Shpilevoy in Data Engineers

Экспортнуть в файл данные вьюхи из терадаты?

источник

19:53пожаловаться #12

A

Alex in Data Engineers

Года идут, а csv все правит миром

источник

19:56пожаловаться #13

AP

Alexander Piminov in Data Engineers

Если нет возможности оптимизировать код view, чтобы "сместить" потребление ресурсов, можно попробовать разбить view логически, например, если у тебя звезда-снежинка с небольшими измерениями, то попробовать поделить таблицу фактов по партициям (если они есть). И ты уверен, что материализованной версии нет или нет возможности ее создать?

источник

20:03пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

Ivan Gagarkin

Нужна помощь. Есть большая вьюха в тетрадате на 1млрд записей. Вьюха состоит из джойнов. Ее надо перекачать в хдфс. Пытался грузить спарком через select * from table, тогда запрос сжирает 20% ЦПУ и база ложиться. С постраничной выгрузкой тоже проблема. Пробовал качать по индексу через index where in (), но получается очень долго - уйдет 2 месяца. Какие еще варианты могут быть?

материализовать в таблицу и выкачать TDCH (Teradata Connector for Hadoop)

источник

20:16пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

он качает протоколом тпамп, сразу со всех узлов, очень быстро

источник

20:17пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

https://downloads.teradata.com/download/connectivity/teradata-connector-for-hadoop-command-line-edition

источник

20:26пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

ну и если вам таблица нужна для алгоритма какого-нибудь, то можно поставить датафреймы для терадаты, написать что нужно, там может и пушдаун какой-то будет который снизит объем данных между спарком и терадаты

источник

20:30пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

https://pypi.org/project/teradataml/

PyPI

teradataml

Teradata Vantage Python package for Advanced Analytics

источник

20:31пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

а может даже и все можно прямо в терадатке посчитать)

источник

20:31пожаловаться #20