Size: a a a

2020 February 18

АЖ

Андрей Жуков in Data Engineers
Роман Пашкевич
Господа. А какой способ передачи данных в HIVE самый адекватно быстрый? Есть цель, максимально быстро выкачивать данные с источника, и класть в партицированную таблицу в HIVE.

В качестве источника сейчас выступает HANA. И способ забора данных по jdbc.

Это раз в 5 быстрей старой схемы через pyrfc. Но все равно медленно.
spark, партицирование запросов?
источник

РП

Роман Пашкевич in Data Engineers
Андрей Жуков
spark, партицирование запросов?
Сейчас да. SPARK'ом, в цикле по партиции забираю данные и через SaveAsTable сохраняю на кластер. Потом уже "дельту" загружаю в таблицу с партициями.
источник

РП

Роман Пашкевич in Data Engineers
Вот пытаюсь понять во что упираюсь. В сеть? В кол-во ядер\экзекьюторов? Или может вообще есть более быстрый способ грузить данные, и SPARK это костыль....
источник

РА

Рамиль Ахмадеев in Data Engineers
Роман Пашкевич
Господа. А какой способ передачи данных в HIVE самый адекватно быстрый? Есть цель, максимально быстро выкачивать данные с источника, и класть в партицированную таблицу в HIVE.

В качестве источника сейчас выступает HANA. И способ забора данных по jdbc.

Это раз в 5 быстрей старой схемы через pyrfc. Но все равно медленно.
sqoop не пробовали?
источник

РА

Рамиль Ахмадеев in Data Engineers
он как раз про это
источник

РП

Роман Пашкевич in Data Engineers
Рамиль Ахмадеев
sqoop не пробовали?
Лично не пробовал. Но вообще sqoop'ом коллеги грузят данные из SAP ERP...
источник

A

Artur in Data Engineers
Роман Пашкевич
Вот пытаюсь понять во что упираюсь. В сеть? В кол-во ядер\экзекьюторов? Или может вообще есть более быстрый способ грузить данные, и SPARK это костыль....
а в хану не можете упираться? может таблицы перед выгрузкой в память подгрузить?
источник

РП

Роман Пашкевич in Data Engineers
надо у них тогда проконсультироваться
источник

A

Artur in Data Engineers
Роман Пашкевич
Лично не пробовал. Но вообще sqoop'ом коллеги грузят данные из SAP ERP...
ненастроенный spark выгружает медленнее, чем sqoop, по-моему
источник

РП

Роман Пашкевич in Data Engineers
Artur
а в хану не можете упираться? может таблицы перед выгрузкой в память подгрузить?
По идее не должен. Насколько знаю эти таблицы и так в памяти.
источник

А

Алексей in Data Engineers
Роман Пашкевич
Господа. А какой способ передачи данных в HIVE самый адекватно быстрый? Есть цель, максимально быстро выкачивать данные с источника, и класть в партицированную таблицу в HIVE.

В качестве источника сейчас выступает HANA. И способ забора данных по jdbc.

Это раз в 5 быстрей старой схемы через pyrfc. Но все равно медленно.
вы вкурсе что по jdbc к хане из внешних систем нельзя подключаться?
источник

А

Алексей in Data Engineers
нужно покупать платный sap ds)
источник

РП

Роман Пашкевич in Data Engineers
Алексей
вы вкурсе что по jdbc к хане из внешних систем нельзя подключаться?
К Хане как раз можно) А вот к ERP нет, там какая то злая лицензия.
источник

A

Artur in Data Engineers
Алексей
вы вкурсе что по jdbc к хане из внешних систем нельзя подключаться?
можно же
источник

А

Алексей in Data Engineers
нам чет запретили..
источник

K

KrivdaTheTriewe in Data Engineers
ребят, кто в терадату писал, там есть возможность в несколько потоков в одну таблицу писать ?
источник

N

Nikita Blagodarnyy in Data Engineers
Через o/jdbc можно
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Через o/jdbc можно
чот в одну ссессию ток идет
источник

N

Nikita Blagodarnyy in Data Engineers
через их тулы tpt-fastload вроде как нельзя, да мы и не пробовали. через powercenter только 1 сессия
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
чот в одну ссессию ток идет
вот тут позырь
https://habr.com/ru/post/271735/
источник