Size: a a a

2019 August 07

РА

Рамиль Ахмадеев in Data Engineers
да
источник

Ж

Жмака in Data Engineers
Тогда вроде с этой стороны все верно
источник

РА

Рамиль Ахмадеев in Data Engineers
погоди там еще такая же настройка должна быть в oozie-site.xml вроде
источник

РА

Рамиль Ахмадеев in Data Engineers
хотя я уже почти год как ни одного хадупа в живую не видел может и путаю чего
источник

Ж

Жмака in Data Engineers
Рамиль Ахмадеев
погоди там еще такая же настройка должна быть в oozie-site.xml вроде
В Oozie нет по дифолту, но наколько помню надо в oozie-site.xml только если есть керберос
источник
2019 August 08

AB

Andrei Boaghe in Data Engineers
Всем привет))
Не подскажите, может ли Spark писать .har файлы?

Есть большой DF, я пишу его на диск (hdfs) разбивая на маленькие части (partition by). Хотелось бы, сразу создать har архив из этих файликов (из спарка)
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrei Boaghe
Всем привет))
Не подскажите, может ли Spark писать .har файлы?

Есть большой DF, я пишу его на диск (hdfs) разбивая на маленькие части (partition by). Хотелось бы, сразу создать har архив из этих файликов (из спарка)
вам не нужно писать архив, сделайте coalesce/repartition, в зависимости от того что вам больше подход
источник

AZ

Anton Zadorozhniy in Data Engineers
и нет, спарк не может создавать хары, хар это не формат хранения а такой хак в ФС, для их создания нужен специальный MR
источник

AB

Andrei Boaghe in Data Engineers
Anton Zadorozhniy
и нет, спарк не может создавать хары, хар это не формат хранения а такой хак в ФС, для их создания нужен специальный MR
понял) спасибо :)
источник

EN

Eldar Nezametdinov in Data Engineers
Дата Инженеры, нид хелп.
Подскажите запускаю джобу на узи spark-action.
И вижу в ярне следующее, сначала создается MAPREDUCE джоба:
Name:
oozie:launcher:T=spark:W=SimpleApplication-package-jar:A=spark-7497:ID=0000046-190805112645137-oozie-oozi-W
Application Type:
MAPREDUCE
StartTime: Wed Aug 7 22:35:24 +0300 2019

И затем только SPARK
Name:
SimpleApplication-package-jar
Application Type:
SPARK
StartTime: Wed Aug 7 22:36:01 +0300 2019

это нормальное поведение?? можно как-то без пунтка MAPREDUCE обойтись? зачем он вообще создается при spark-action и для чего нужен???
источник

A

Alex in Data Engineers
Все правильно
источник

A

Alex in Data Engineers
Оози запускает лаунчер и свой координатор
источник

A

Alex in Data Engineers
А уже тот запускает что тебе нужно (спарк или ещё что)
источник

A

Alex in Data Engineers
Итого даже если у тебя простейший дистшел скрипт то имеешь
источник

A

Alex in Data Engineers
1й апп 2 контейнера (апп мастер + воркер который запустит джобу)
2й апп 2 контейнера (апп мастер + воркер где и выполнится твой скрипт)
источник

A

Alex in Data Engineers
1й апп как раз и нужен чтобы трекать выполнение твоей задачи и при необходимости перезапустить или ещё что сделать
источник

A

Alex in Data Engineers
А апптайп сильно ни на что для ярна не влияет, узи в теории может ставить хоть oozie тип :)
источник

EN

Eldar Nezametdinov in Data Engineers
класс, спасибо)
источник

AZ

Anton Zadorozhniy in Data Engineers
в новом узи уже хороший тип, там нормальный AM наконец сделан вместо позорного single mapper job
источник

GP

Grigory Pomadchin in Data Engineers
Спасибо; спам жопа полная конечно
источник