Size: a a a

2019 June 07

GG

George Gaál in Data Engineers
Alex
hdfs куда пихать?
а зачем он ?
источник

O

Oleg in Data Engineers
λoλzod
А серьезно? Нифига себе.
с версии 2.3.0 вроде, в целом работает даже
источник

AZ

Anton Zadorozhniy in Data Engineers
ладно hdfs, как жить без hive metastore?
источник

A

Alex in Data Engineers
Anton Zadorozhniy
это был троллинговый наброс видимо, хадуп как разделение компьюта и хранилища, где хранилище объектное - живее всех живых, просто у кого-то по какой-то возможности нет С3/блоб стораджа, и они варят HDFS
именно поэтому у знакомых если данные в s3 или вариант поднять emr и данных запихнуть на hdfs и потом процессить, то скорость на порядки отличается
источник

O

Oleg in Data Engineers
Renarde
Всем доброе утро!
Возник вопрос, как аккуратно тестировать спарковские приложения.
Суть такая - у нас есть Spark Scala приложение, которое имеет аргументы из command-line и внутри него стартует спарк:
var options = new JobOptions
optionsOrExit(args.options)
val spark = new SparkSession.Builder().getOrCreate
val integrator = Integrator(param1=options.param1)
integrator.performIntegration(spark)
В тестах это обкладывается стартующим в начале всех тестов спарком:
train WithSparkContext extends BeforeAndAfterAll {

 override def beforeAll() {
 var spark = SparkSession.builder().getOrCreate
 }
}
Проблема в том что передача аргументов и запуск спарка остаются с нулевым code coverage. Как аккуратно мокнуть это поведение?
получение пропертей оборачивается в объект, в тестах вместо которого подсовывается мок
источник

A

Alex in Data Engineers
по мне спарк в кубике тоже имеет право на жизнь, часто там именно cpu задачи
источник

A

Alex in Data Engineers
всякие ml или стриминг из-в кафку
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
именно поэтому у знакомых если данные в s3 или вариант поднять emr и данных запихнуть на hdfs и потом процессить, то скорость на порядки отличается
конечно, но hdfs тут временное хранилище, мы же про большую архитектуру, никто не делает персистент кластеров хдфс на эфемерных или ебс инстансах
источник

A

Alex in Data Engineers
George Gaál
а зачем он ?
куда складывать 10+ петабайт данных?
источник

GG

George Gaál in Data Engineers
Alex
куда складывать 10+ петабайт данных?
это шутка такая?
источник

A

Alex in Data Engineers
нет, это реальность
источник

GG

George Gaál in Data Engineers
типа ONE LOVE HDFS?
источник

A

Alex in Data Engineers
ceph пока он чисто ceph ок
когда radosgw то нужно быть аккуратней, на больших бакетах он начинает тупить и просто так его даже не дропнешь
источник

A

Alex in Data Engineers
пока не удалишь все записи внутри
источник

A

Alex in Data Engineers
George Gaál
типа ONE LOVE HDFS?
нет, мне интересно что можно из oss изпользовать в локальном датацентре
источник

AZ

Anton Zadorozhniy in Data Engineers
10 петабайт конечно складывать в s3
источник

A

Alex in Data Engineers
нету амазона, в своем датацентре или железе
источник

GG

George Gaál in Data Engineers
Alex
нет, мне интересно что можно из oss изпользовать в локальном датацентре
т.е. именно, что локальный ДЦ.........
источник

GG

George Gaál in Data Engineers
Alex
нету амазона, в своем датацентре или железе
а не нужен. Cloudian HyperStore в помощь или любая коробка с С3
источник

GG

George Gaál in Data Engineers
просто в случае с ХДФС ты переплачиваешь за компьют (цпу-рам)
источник