Size: a a a

2020 March 30

A

Alex in Data Engineers
Ну они сказали как отключить :)
источник

A

Alex in Data Engineers
Иначе вывод MR с мареров не самый маленький будет
источник

DI

Dmitri Ivanov in Data Engineers
Добрый день, коллеги! Не подскажите как лучше обрабатывать иерархические запросы в spark на hive?  Только с помощью Graphx? Есть ли аналог connect by как в Oracle?:)
источник

DZ

Dmitry Zuev in Data Engineers
это какие такие запросы?
источник

DZ

Dmitry Zuev in Data Engineers
Dmitri Ivanov
Добрый день, коллеги! Не подскажите как лучше обрабатывать иерархические запросы в spark на hive?  Только с помощью Graphx? Есть ли аналог connect by как в Oracle?:)
???
источник

MV

Mitya Volodin in Data Engineers
Dmitri Ivanov
Добрый день, коллеги! Не подскажите как лучше обрабатывать иерархические запросы в spark на hive?  Только с помощью Graphx? Есть ли аналог connect by как в Oracle?:)
Graphx норм. Аналога как в оракле нет. Но тут как-то надо осторожней - если под графы, то графикс норм, но он не делает чудес при попытках слепить реляционку (не RDF) иерархическими переходами.
источник

MV

Mitya Volodin in Data Engineers
Оракл просто уж слишком многое позволяет :)
источник

K

KrivdaTheTriewe in Data Engineers
ребят, кто из оракла выгружал, есть какие-то тулзы которые умеют быстро грузить партиции оч большие оракловые?
источник

N

Nikolay in Data Engineers
KrivdaTheTriewe
ребят, кто из оракла выгружал, есть какие-то тулзы которые умеют быстро грузить партиции оч большие оракловые?
выгружать или загружать?
источник

K

KrivdaTheTriewe in Data Engineers
выгружать
источник

N

Nikolay in Data Engineers
а целевой формат? Вряд ли же в другой оракл грузить
источник

TT

Tsh Tsh in Data Engineers
Goldengate
источник

N

Nikolay in Data Engineers
KrivdaTheTriewe
выгружать
в общем, маловато конкретики. Мы для переброски секций в хдфс/паркет на постоянной основе используем nifi, с учетом распараллеливания получается шустро и надежно.
для переброски в другой оракл очевидно - transportable tablespaces или expdp/impdp (главное, чтобы не лобы :) )
для разовых выгрузок в csv, к сожалению, ничего толкового - стандартное как на асктоме (ручная работа с utl_file и распараллеливанием или с sqlcl/sqlplus)
gg такое себе, если только онлайн репликация и в другой оракл..
источник

DZ

Dmitry Zuev in Data Engineers
Нифи через что?
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
ребят, кто из оракла выгружал, есть какие-то тулзы которые умеют быстро грузить партиции оч большие оракловые?
oraoop умеет сабпартиции выгружать в параллель, довольно шустро получалось
источник

AZ

Anton Zadorozhniy in Data Engineers
в принципе логику ораупа можно легко повторить с любой батчевой выгружалкой по jdbc, хоть те же куберовские джобы генерить и писать в отдельные объекты, масштабируемость до уровня партиции и сабпартиции
источник

AZ

Anton Zadorozhniy in Data Engineers
проблемы начинаются когда очень большая таблица без всяких партиций есть, и туда произвольная запись идет, это конечно антипаттер, но встречается часто и тогда да, GG is your friend
источник

N

Nikolay in Data Engineers
Dmitry Zuev
Нифи через что?
? executeSQL, если я правильно помню, а сам sql генерировался на основе данных управляющей таблички, которую джобом пополняли и которая была началом flow.
Призвал коллегу, который за это сейчас отвечает, чтобы он меня поправил если что.
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
выгружать
Через bcv, если есть. Ночью один кусок рейда отцепился, скопировался на ленту и на другой сервак, из этих данных поднялся другой экземпляр. Кусок вернулся в рейд и синхронизировался с соседями.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Через bcv, если есть. Ночью один кусок рейда отцепился, скопировался на ленту и на другой сервак, из этих данных поднялся другой экземпляр. Кусок вернулся в рейд и синхронизировался с соседями.
это способ снижения нагрузки на инстанс, но само средство выгрузки все равно какое-то надо)
источник