Size: a a a

2019 May 15

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Мелкомягкая
а чего тогда без проприетарного? 😊
источник

N

Nikita Blagodarnyy in Data Engineers
Тошнит от кибернетики бдсм. Дорогой шедулер.
источник

K

KrivdaTheTriewe in Data Engineers
Можно датакапчур сделать
источник

K

KrivdaTheTriewe in Data Engineers
Но мы мелкие таблицы можем снапшотить, крупные раз в день всю переливаем
источник

N

Nikita Blagodarnyy in Data Engineers
Spark jdbc никто под это не юзал?
источник

A

Artur in Data Engineers
Nikita Blagodarnyy
Spark jdbc никто под это не юзал?
Пробовал, по моему медленнее скупа, но время не замерял
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Spark jdbc никто под это не юзал?
Его родного
источник

AZ

Anton Zadorozhniy in Data Engineers
я писал свои экстракторы (как раз для sybase/mssql, bcp хе-хе)
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк если разово - проще скупом дернуть
источник

AZ

Anton Zadorozhniy in Data Engineers
если нужно грузить из большого парка баз, да еще где много мелких табличек - проще свой экстрактор написать который красивые файлы плодит
источник

AZ

Anton Zadorozhniy in Data Engineers
проблема со скупом или любым другим процессом порождающим MR - большой оверхед; когда количество таблиц идет на сотни и тысячи, и бОльшая часть из них мелкие - сложно такое обосновать
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
проблема со скупом или любым другим процессом порождающим MR - большой оверхед; когда количество таблиц идет на сотни и тысячи, и бОльшая часть из них мелкие - сложно такое обосновать
Мы поэтому сделали на спарке
источник

AZ

Anton Zadorozhniy in Data Engineers
эт каждому свое, я тут вообще надысь написал на го выгружалку из пг в авро (там фиксированная схема, но очень много инстансов), запускается в 256 мегабайт контейнере 😊
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
эт каждому свое, я тут вообще надысь написал на го выгружалку из пг в авро (там фиксированная схема, но очень много инстансов), запускается в 256 мегабайт контейнере 😊
Ну круто
источник

K

KrivdaTheTriewe in Data Engineers
Просто если сотни тысяч, можно загрузку в рамках одной джобы сделать
источник

K

KrivdaTheTriewe in Data Engineers
Нескольких таблиц
источник

N

Nikita Blagodarnyy in Data Engineers
Таблиц больше 5 тыс и многие в основном мелкие.
источник

AP

Alexander Piminov in Data Engineers
Nikita Blagodarnyy
Spark jdbc никто под это не юзал?
Он + framework поверх него для формирования и распределения загрузки, грузит много таблиц (3К+) инкрементально в много потоков, используя FAIR.
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Таблиц больше 5 тыс и многие в основном мелкие.
Сделайте спарк джобу которая умеет принимать на вход конфиг со списком таблиц
источник

K

KrivdaTheTriewe in Data Engineers
И несколько джоб можно пускать
источник