Size: a a a

2019 September 18

N

Nikita Blagodarnyy in Data Engineers
Я ему сказал, но он, похоже, после завершения всех —command все равно шлет коммит
источник

ПФ

Паша Финкельштейн in Data Engineers
Nikita Blagodarnyy
Я ему сказал, но он, похоже, после завершения всех —command все равно шлет коммит
в конце -c конечно выполнится коммит если ты не скажешь сделать роллбэк
источник

N

Nikita Blagodarnyy in Data Engineers
Это поведение никак не поменять?
источник

S

Stanislav in Data Engineers
KrivdaTheTriewe
SET tez.queue.name=prod;
SET hive.execution.engine=tez                                  ;
SET hive.merge.tezfiles=true                                   ;
SET hive.merge.tezfiles=true                                   ;
SET hive.merge.orcfile.stripe.level=true                       ;
SET hive.exec.dynamic.partition=true                           ;
SET hive.exec.dynamic.partition.mode=nonstrict                 ;
SET hive.merge.size.per.task=200000000                         ;
SET hive.merge.smallfiles.avgsize=200000000                    ;
INSERT OVERWRITE TABLE  from select * from table

селект работает в прод очереди, мердж в дефаулт очереди
судя по https://issues.apache.org/jira/browse/HIVE-7509 он сначала делает операцию конкатенации, потом вставку
и ты напарываешься как раз на сброс очереди между ними
попробуй обход - сначала ALTER TABLE table_name [PARTITION (partition_key = 'partition_value' [, ...])] CONCATENATE;
потом инсерт
и это изврат, сделай спарком - быстрее же )
источник

K

KrivdaTheTriewe in Data Engineers
Stanislav
судя по https://issues.apache.org/jira/browse/HIVE-7509 он сначала делает операцию конкатенации, потом вставку
и ты напарываешься как раз на сброс очереди между ними
попробуй обход - сначала ALTER TABLE table_name [PARTITION (partition_key = 'partition_value' [, ...])] CONCATENATE;
потом инсерт
и это изврат, сделай спарком - быстрее же )
хайв быстрее
источник

S

Stanislav in Data Engineers
сильно?
источник

K

KrivdaTheTriewe in Data Engineers
Stanislav
сильно?
ну вот на тасках взять из партиции и положить тож самое обратно ,но пожатое - да
источник

S

Stanislav in Data Engineers
интересно даже за счет чего выигрыш
таблицы менеджмент?
источник

K

KrivdaTheTriewe in Data Engineers
экстернал
источник

K

KrivdaTheTriewe in Data Engineers
Stanislav
интересно даже за счет чего выигрыш
таблицы менеджмент?
да и проще это на самом деле, у хайва есть контроль конечного размера нормальный
источник

K

KrivdaTheTriewe in Data Engineers
берешь партицию  делаешь прям инсерт и он мержит  файлики  нормально
источник

S

Stanislav in Data Engineers
если бы из каждого куска хайва не торчали грабли )
спарк понятней себя ведет )
источник

K

KrivdaTheTriewe in Data Engineers
Stanislav
если бы из каждого куска хайва не торчали грабли )
спарк понятней себя ведет )
а у спарка просто грабли за тобой летают
источник

S

Stanislav in Data Engineers
да давно пора на мпп валить, сколько можно уже )
источник
2019 September 19

OP

O. Petr in Data Engineers
на сколько надежно из nifi напрямую в спарк ?
источник

S

Stanislav in Data Engineers
это как?
источник

S

Stanislav in Data Engineers
там внутри же ссылка на ливи
источник

S

Stanislav in Data Engineers
а если через обычный экзекут - спарк-сабмитом норм
источник

AZ

Anton Zadorozhniy in Data Engineers
SocketStream наверное
источник

AZ

Anton Zadorozhniy in Data Engineers
ненадежно короче, используйте промежуточный сторадж
источник