Телеграмм чат группы hadoopusers страница 1609

То что у тебя в хелпере написано - секрет?

09:29пожаловаться #1

ПФ

Который generateRow

09:29пожаловаться #2

тут, я не уверен, что код могу полностью показать. Но падает на строке

val df = spark.sqlContext.read.parquet(s"/path/to/parquet")

09:31пожаловаться #3

ПФ

Ты там с сессией ничего не делаешь?

09:31пожаловаться #4

я так понимаю, что не передается sparkSession внутрь rdd

09:31пожаловаться #5

нет

09:31пожаловаться #6

Rustam Iksanov

Чуть позже, если понадобится. Я кажется, смог найти проблему. У меня DStream[case class] после чтения из кафки. Я на нем вызываю foreachRDD{rdd => if(!red.isEmpty)
rdd.foreach(f: A => unit)
}
Внутри f есть использование sparkSession для чтения паркетов. Кажется этот момент вызывает NPE

код как вызываю описал уже

09:31пожаловаться #7

ПФ

А почему там sqlContext?

09:33пожаловаться #8

ПФ

По бизнесу надо?

09:33пожаловаться #9

Паша Финкельштейн

По бизнесу надо?

Нет. Не думаю.

09:35пожаловаться #10

ПФ

А вот если ради интереса попробовать его убрать?

09:35пожаловаться #11

ПФ

Читать же и без него можно?

09:35пожаловаться #12

Паша Финкельштейн

Читать же и без него можно?

Сейчас попробую

09:37пожаловаться #13

Паша Финкельштейн

А вот если ради интереса попробовать его убрать?

Убрал sqlContext + убрал val ss = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate(), который генерировал ss внутри rdd. Падает с ошибкой

org.apache.spark.SparkException: A master URL must be set in your configuration
  at org.apache.spark.SparkContext.<init>(SparkContext.scala:367)
  at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2493)
  at org.apache.spark.sql.SparkSession$Builder$$anonfun$7.apply(SparkSession.scala:934)
  at org.apache.spark.sql.SparkSession$Builder$$anonfun$7.apply(SparkSession.scala:925)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:925)
  at org.apache.spark.ml.util.BaseReadWrite$class.sparkSession(ReadWrite.scala:74)
  at org.apache.spark.ml.util.MLReader.sparkSession(ReadWrite.scala:193)
  at org.apache.spark.ml.util.BaseReadWrite$class.sc(ReadWrite.scala:85)
  at org.apache.spark.ml.util.MLReader.sc(ReadWrite.scala:193)
  at org.apache.spark.ml.PipelineModel$PipelineModelReader.load(Pipeline.scala:410)
  at org.apache.spark.ml.PipelineModel$PipelineModelReader.load(Pipeline.scala:404)
  at ru.model.ModelApplication$$anonfun$6$$anonfun$apply$2.apply(ModelApplication.scala:143)

на коде val model = PipelineModel.read.load(modelPath), перед функцией генерации

10:06пожаловаться #14

tenKe in Data Engineers

мастер юрл маст би сет ин ер конфигурейшен

10:13пожаловаться #15

tenKe

мастер юрл маст би сет ин ер конфигурейшен

в том то и дело, что он есть.

10:15пожаловаться #16

Alexander Chermenin in Data Engineers

забери контекст из RDD и используй его для чтения всего остального

10:17пожаловаться #17

Alexander Chermenin

забери контекст из RDD и используй его для чтения всего остального

так val sparkSession: SparkSession = SparkSession.builder.config(rdd.context.getConf).getOrCreate()?

10:22пожаловаться #18

Alexander Chermenin in Data Engineers

rdd.context

а из него создать sqlContext и читать

10:24пожаловаться #19

Grigory Pomadchin in Data Engineers

Rustam Iksanov

тут, я не уверен, что код могу полностью показать. Но падает на строке

val df = spark.sqlContext.read.parquet(s"/path/to/parquet")

а где ты колл делаешь этот?