Телеграмм чат группы hadoopusers страница 1354

это был троллинговый наброс видимо, хадуп как разделение компьюта и хранилища, где хранилище объектное - живее всех живых, просто у кого-то по какой-то возможности нет С3/блоб стораджа, и они варят HDFS

именно поэтому у знакомых если данные в s3 или вариант поднять emr и данных запихнуть на hdfs и потом процессить, то скорость на порядки отличается

источник

11:08пожаловаться #4

Oleg in Data Engineers

Renarde

Всем доброе утро!
Возник вопрос, как аккуратно тестировать спарковские приложения.
Суть такая - у нас есть Spark Scala приложение, которое имеет аргументы из command-line и внутри него стартует спарк:

var options = new JobOptions
optionsOrExit(args.options)
val spark = new SparkSession.Builder().getOrCreate
val integrator = Integrator(param1=options.param1)
integrator.performIntegration(spark)

В тестах это обкладывается стартующим в начале всех тестов спарком:

train WithSparkContext extends BeforeAndAfterAll {

  override def beforeAll() {
  var spark = SparkSession.builder().getOrCreate
  }
}

Проблема в том что передача аргументов и запуск спарка остаются с нулевым code coverage. Как аккуратно мокнуть это поведение?

получение пропертей оборачивается в объект, в тестах вместо которого подсовывается мок

источник

11:09пожаловаться #5

Alex in Data Engineers

по мне спарк в кубике тоже имеет право на жизнь, часто там именно cpu задачи

источник

11:09пожаловаться #6

Alex in Data Engineers

всякие ml или стриминг из-в кафку

источник

11:09пожаловаться #7

Anton Zadorozhniy in Data Engineers

Alex

конечно, но hdfs тут временное хранилище, мы же про большую архитектуру, никто не делает персистент кластеров хдфс на эфемерных или ебс инстансах

источник

11:11пожаловаться #8

Alex in Data Engineers

George Gaál

а зачем он ?

куда складывать 10+ петабайт данных?

источник

11:11пожаловаться #9

George Gaál in Data Engineers

Alex

куда складывать 10+ петабайт данных?

это шутка такая?

источник

11:12пожаловаться #10

Alex in Data Engineers

нет, это реальность

источник

11:12пожаловаться #11

George Gaál in Data Engineers

типа ONE LOVE HDFS?

источник

11:12пожаловаться #12

Alex in Data Engineers

ceph пока он чисто ceph ок
когда radosgw то нужно быть аккуратней, на больших бакетах он начинает тупить и просто так его даже не дропнешь

источник

11:12пожаловаться #13

Alex in Data Engineers

пока не удалишь все записи внутри

источник

11:13пожаловаться #14

Alex in Data Engineers

George Gaál

типа ONE LOVE HDFS?

нет, мне интересно что можно из oss изпользовать в локальном датацентре

источник

11:14пожаловаться #15

Anton Zadorozhniy in Data Engineers

10 петабайт конечно складывать в s3

источник

11:14пожаловаться #16

Alex in Data Engineers

нету амазона, в своем датацентре или железе

источник

11:14пожаловаться #17

George Gaál in Data Engineers

Alex

нет, мне интересно что можно из oss изпользовать в локальном датацентре

т.е. именно, что локальный ДЦ.........

источник

11:14пожаловаться #18

George Gaál in Data Engineers

Alex

нету амазона, в своем датацентре или железе

а не нужен. Cloudian HyperStore в помощь или любая коробка с С3

источник

11:15пожаловаться #19

George Gaál in Data Engineers

просто в случае с ХДФС ты переплачиваешь за компьют (цпу-рам)

источник

11:15пожаловаться #20