Телеграмм чат группы hadoopusers страница 2092

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1785 membersпожаловаться на группу

2020 February 18

АЖ

Андрей Жуков in Data Engineers

Роман Пашкевич

Господа. А какой способ передачи данных в HIVE самый адекватно быстрый? Есть цель, максимально быстро выкачивать данные с источника, и класть в партицированную таблицу в HIVE.

В качестве источника сейчас выступает HANA. И способ забора данных по jdbc.

Это раз в 5 быстрей старой схемы через pyrfc. Но все равно медленно.

spark, партицирование запросов?

источник

15:15пожаловаться #1

РП

Роман Пашкевич in Data Engineers

Андрей Жуков

spark, партицирование запросов?

Сейчас да. SPARK'ом, в цикле по партиции забираю данные и через SaveAsTable сохраняю на кластер. Потом уже "дельту" загружаю в таблицу с партициями.

источник

15:16пожаловаться #2

РП

Роман Пашкевич in Data Engineers

Вот пытаюсь понять во что упираюсь. В сеть? В кол-во ядер\экзекьюторов? Или может вообще есть более быстрый способ грузить данные, и SPARK это костыль....

источник

15:17пожаловаться #3

РА

Рамиль Ахмадеев in Data Engineers

Роман Пашкевич

Господа. А какой способ передачи данных в HIVE самый адекватно быстрый? Есть цель, максимально быстро выкачивать данные с источника, и класть в партицированную таблицу в HIVE.

В качестве источника сейчас выступает HANA. И способ забора данных по jdbc.

Это раз в 5 быстрей старой схемы через pyrfc. Но все равно медленно.

sqoop не пробовали?

источник

15:19пожаловаться #4

РА

Рамиль Ахмадеев in Data Engineers

он как раз про это

источник

15:19пожаловаться #5

РП

Роман Пашкевич in Data Engineers

Рамиль Ахмадеев

sqoop не пробовали?

Лично не пробовал. Но вообще sqoop'ом коллеги грузят данные из SAP ERP...

источник

15:20пожаловаться #6

A

Artur in Data Engineers

Роман Пашкевич

Вот пытаюсь понять во что упираюсь. В сеть? В кол-во ядер\экзекьюторов? Или может вообще есть более быстрый способ грузить данные, и SPARK это костыль....

а в хану не можете упираться? может таблицы перед выгрузкой в память подгрузить?

источник

15:20пожаловаться #7

РП

Роман Пашкевич in Data Engineers

надо у них тогда проконсультироваться

источник

15:20пожаловаться #8

A

Artur in Data Engineers

Роман Пашкевич

Лично не пробовал. Но вообще sqoop'ом коллеги грузят данные из SAP ERP...

ненастроенный spark выгружает медленнее, чем sqoop, по-моему

источник

15:20пожаловаться #9

РП

Роман Пашкевич in Data Engineers

а в хану не можете упираться? может таблицы перед выгрузкой в память подгрузить?

По идее не должен. Насколько знаю эти таблицы и так в памяти.

источник

15:21пожаловаться #10

А

Алексей in Data Engineers

Роман Пашкевич

Господа. А какой способ передачи данных в HIVE самый адекватно быстрый? Есть цель, максимально быстро выкачивать данные с источника, и класть в партицированную таблицу в HIVE.

В качестве источника сейчас выступает HANA. И способ забора данных по jdbc.

Это раз в 5 быстрей старой схемы через pyrfc. Но все равно медленно.

вы вкурсе что по jdbc к хане из внешних систем нельзя подключаться?

источник

15:21пожаловаться #11

А

Алексей in Data Engineers

нужно покупать платный sap ds)

источник

15:21пожаловаться #12

РП

Роман Пашкевич in Data Engineers

вы вкурсе что по jdbc к хане из внешних систем нельзя подключаться?

К Хане как раз можно) А вот к ERP нет, там какая то злая лицензия.

источник

15:21пожаловаться #13

A

Artur in Data Engineers

вы вкурсе что по jdbc к хане из внешних систем нельзя подключаться?

можно же

источник

15:21пожаловаться #14

А

Алексей in Data Engineers

нам чет запретили..

источник

15:22пожаловаться #15

K

KrivdaTheTriewe in Data Engineers

ребят, кто в терадату писал, там есть возможность в несколько потоков в одну таблицу писать ?

источник

16:43пожаловаться #16

N

Nikita Blagodarnyy in Data Engineers

Через o/jdbc можно

источник

16:44пожаловаться #17

K

KrivdaTheTriewe in Data Engineers

Nikita Blagodarnyy

Через o/jdbc можно

чот в одну ссессию ток идет

источник

16:44пожаловаться #18

N

Nikita Blagodarnyy in Data Engineers

через их тулы tpt-fastload вроде как нельзя, да мы и не пробовали. через powercenter только 1 сессия

источник

16:45пожаловаться #19

N

Nikita Blagodarnyy in Data Engineers

KrivdaTheTriewe

чот в одну ссессию ток идет

вот тут позырь
https://habr.com/ru/post/271735/

Запись данных в Teradata c помощью DML

Если идти всё прямо да прямо, далеко не уйдешь… (Маленький принц, Антуан де Сент-Экзюпери) Недавно ко мне обратился коллега с просьбой как-то помочь с Terada...

источник

16:46пожаловаться #20