Size: a a a

2020 March 30

N

Nikita Blagodarnyy in Data Engineers
Ну непонятно, куда выгружать и надо ли вообще. Может просто нужна какая-то супержирная агрегация, которую не провести на проде биллинга.
источник

N

Nikita Blagodarnyy in Data Engineers
Так-то и на adg можно, если дба не заметят. Или глупые.
источник

AZ

Anton Zadorozhniy in Data Engineers
но да, BCV это удобный способ поднимать стендбай реплику
источник

N

Nikolay in Data Engineers
Anton Zadorozhniy
в принципе логику ораупа можно легко повторить с любой батчевой выгружалкой по jdbc, хоть те же куберовские джобы генерить и писать в отдельные объекты, масштабируемость до уровня партиции и сабпартиции
можно и внутри секции параллелить, если сеть недоутилизирована, а диски позволяяют + предметная специфика понятна (range там или list)
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
можно и внутри секции параллелить, если сеть недоутилизирована, а диски позволяяют + предметная специфика понятна (range там или list)
ну это надо в каждую таблицу смотреть, а по партициям/сабпартициям даже первокурсник напишет параллелизацию :)
источник

AZ

Anton Zadorozhniy in Data Engineers
(даже я написал)
источник

N

Nikita Blagodarnyy in Data Engineers
В одном банке на суперхайлоад базе оракловой использовалось аж 4 инстанса-прод, адг и 2 бцв копии. На прикладном уровне распихивались запросы в зависимости от требований к свежести данных и необходимости изменения.
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
ну это надо в каждую таблицу смотреть, а по партициям/сабпартициям даже первокурсник напишет параллелизацию :)
Можно взять кредит и купить экзадату, тогда и писать ничего не надо, она сама распараллелит.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Можно взять кредит и купить экзадату, тогда и писать ничего не надо, она сама распараллелит.
да-да, экзадата делает все ваши однопоточные утилиты выгрузки супер параллельными)
источник

N

Nikita Blagodarnyy in Data Engineers
Ну скуп же умеет сейчас вроде по ключу параллелиться?
источник

DZ

Dmitry Zuev in Data Engineers
Nikita Blagodarnyy
Ну скуп же умеет сейчас вроде по ключу параллелиться?
Даже Спарк умеет
источник
2020 March 31

K

KrivdaTheTriewe in Data Engineers
все умеет, но не все умеет взять просто партицию и потоково сливать это в хдфс без сохранения в локальный сторадж
источник

K

KrivdaTheTriewe in Data Engineers
партиция гигов 20-40
источник

K

KrivdaTheTriewe in Data Engineers
источник

PK

Pavel Kirillov in Data Engineers
Нифай сохраняет в локальный сторадж, но может не сразу все 20-40 гигов, а порциями. Это конечно не поток, но данные переливает и с outofmemory не падает
источник

DZ

Dmitry Zuev in Data Engineers
KrivdaTheTriewe
все умеет, но не все умеет взять просто партицию и потоково сливать это в хдфс без сохранения в локальный сторадж
У меня такая же боль
источник

DZ

Dmitry Zuev in Data Engineers
Нам нужен кастомный сорс
источник

K

KrivdaTheTriewe in Data Engineers
Dmitry Zuev
Нам нужен кастомный сорс
кастомный сорс не поможет
источник

K

KrivdaTheTriewe in Data Engineers
в идеологии спарка
источник

K

KrivdaTheTriewe in Data Engineers
же
источник