Телеграмм чат группы hadoopusers страница 1628

12:22пожаловаться #1

VE

Vladimir E. in Data Engineers

Конекшон между nifi и спарком

12:22пожаловаться #2

RI

Инженеры! Есть вопрос по spark kafka streaming и последующих вычислениях. Единственный вариант, при котором у меня получается передать sparkSession внутрь rdd это такой:

 kafkaDStream.foreachRDD { rdd =>
      if (!rdd.isEmpty()) {
        val df = rdd.toDF().as[A]
        val spark =
          SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
        import spark.implicits._
        df.collect().foreach(_ => ())

но этот вариант плох тем, что все вычисление пойдет на одном драйвере(как я понимаю). если убрать collect сразу получаю ошибку с A master URL must be set in your configuration

12:33пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Vladimir E.

А как это в kylo было реализовано?

Нафаня в кайле только для первичного приземления в сторадж и оркестрации джобов, данные напрямую из нафани в Спарк не передаются

12:41пожаловаться #4

VE

Vladimir E. in Data Engineers

Ага, то есть там Спарк стриминг бежит и просто мониторит какую то папку или там батчевый Спарк по тригеру ?

12:43пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Там батчевый спарк используется, входящий стрим лэндится на сторадж нафаней тоже

12:48пожаловаться #6

AB

Andrei Boaghe in Data Engineers

Всем привет,
нужна помощь :)
Вылезает вот такой вот странный эксэпшн из Spark Job'a (2.1.0):

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): No lease on /user/tu099trasparenza/cache/condizioniArricchite/_temporary/0/_temporary/attempt_20190919123523_0014_m_000151_0/part-00151-0b7285cc-52d5-49db-97d2-129c716ff5e4.snappy.parquet (inode 59805817): File does not exist. Holder DFSClient_attempt_20190919123523_0014_m_000149_0_-1044167922_250 does not have any open files.

Никто не сталкивался?
PS: в папку "cache" я руками сохраняю промежуточные DataFrame (parquet), чтобы потом (при следующем запуске джоба) их переиспользовать (считываю parquet, а не генерю заново DF)

Hive job failed with error "org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException"

14:51пожаловаться #7

DP

Dumitru Preguza in Data Engineers

Andrei Boaghe

Всем привет,
нужна помощь :)
Вылезает вот такой вот странный эксэпшн из Spark Job'a (2.1.0):

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): No lease on /user/tu099trasparenza/cache/condizioniArricchite/_temporary/0/_temporary/attempt_20190919123523_0014_m_000151_0/part-00151-0b7285cc-52d5-49db-97d2-129c716ff5e4.snappy.parquet (inode 59805817): File does not exist. Holder DFSClient_attempt_20190919123523_0014_m_000149_0_-1044167922_250 does not have any open files.

Никто не сталкивался?
PS: в папку "cache" я руками сохраняю промежуточные DataFrame (parquet), чтобы потом (при следующем запуске джоба) их переиспользовать (считываю parquet, а не генерю заново DF)

Пробуй тут взгялнуть https://community.pivotal.io/s/article/Hive-job-failed-with-error-org-apache-hadoop-ipc-RemoteException-org-apache-hadoop-hdfs-server-namenode-LeaseExpiredException

community.pivotal.io

Article Number: 3370 ■ Publication Date: December 12, 2017 ■ Author: Lucas Saintarbor

15:08пожаловаться #8

RI

Инженеры! Есть вопрос по spark kafka streaming и последующих вычислениях. Единственный вариант, при котором у меня получается передать sparkSession внутрь rdd это такой:

 kafkaDStream.foreachRDD { rdd =>
      if (!rdd.isEmpty()) {
        val df = rdd.toDF().as[A]
        val spark =
          SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
        import spark.implicits._
        df.collect().foreach(_ => ())

но этот вариант плох тем, что все вычисление пойдет на одном драйвере(как я понимаю). если убрать collect сразу получаю ошибку с A master URL must be set in your configuration

У кого-нибудь есть опыт?

17:06пожаловаться #9

AC

Alexander Chermenin in Data Engineers

Инженеры! Есть вопрос по spark kafka streaming и последующих вычислениях. Единственный вариант, при котором у меня получается передать sparkSession внутрь rdd это такой:

 kafkaDStream.foreachRDD { rdd =>
      if (!rdd.isEmpty()) {
        val df = rdd.toDF().as[A]
        val spark =
          SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
        import spark.implicits._
        df.collect().foreach(_ => ())

но этот вариант плох тем, что все вычисление пойдет на одном драйвере(как я понимаю). если убрать collect сразу получаю ошибку с A master URL must be set in your configuration

чего вы этим хотите добиться?

17:35пожаловаться #10

RI

Я хочу добится вычисления. Проблема в том, что подкапотом foreach куча селектов и джоинов.

17:36пожаловаться #11

AC

Alexander Chermenin in Data Engineers

версии спарка после 2.0 позволяют джойнить стримы с static-DF, может лучше в эту сторону покопать?

17:37пожаловаться #12

RI

Alexander Chermenin

версии спарка после 2.0 позволяют джойнить стримы с static-DF, может лучше в эту сторону покопать?

из кафки приходят данные для селекта. Пока не очень понимаю, как там делать джоин.

17:39пожаловаться #13

RI

Еще вопросик. Есть спарк приложение. Один из методов внутри создает темпвью из него делает селект и возвращает результат селекта. Вопрос как долго будет жить эта темпвью?

18:41пожаловаться #14

R

Еще вопросик. Есть спарк приложение. Один из методов внутри создает темпвью из него делает селект и возвращает результат селекта. Вопрос как долго будет жить эта темпвью?

пока приложение не умрет, кто-то не дропнет этот вью (в приложении) или сделает .createOrReplaceTempView

18:50пожаловаться #15

RI

Renarde

пока приложение не умрет, кто-то не дропнет этот вью (в приложении) или сделает .createOrReplaceTempView

То есть, если данных много, то они будут захламлять память?

18:53пожаловаться #16

R

вью не держит никаких данных. это lazyval, который вычислится в момент запроса к нему

18:53пожаловаться #17

RI

Renarde

вью не держит никаких данных. это lazyval, который вычислится в момент запроса к нему

Вот он вычислился. Процесс по приложению идет дальше, а этот вью занимает место, так?

18:55пожаловаться #18

R

Вот он вычислился. Процесс по приложению идет дальше, а этот вью занимает место, так?

вычислился, отдал результат и забыл его.
вот допустим, у вас есть фрейм:

df = spark.read.format("parquet").load("s3a://something")
df.createOrReplaceTempView("view1")

Он просто указывает в SparkSQL ссылку, на то, что этот вью указывает на данные в S3.
Если вы дальше в приложении выполните:

so

me_results = spark.sql("select c1,c2 from view1").collect()

То в переменную some_results будут собраны результаты исполнения запроса, но сам по себе view1 не будет держать никаких данных.

18:58пожаловаться #19

R

view без кеша / персиста - это просто ссылка на какие-то данные.

другая опция - это когда хочется держать фрейм в памяти, чтобы быстро к нему обращаться. тогда будет вот так:

df = spark.read.format("parquet").load("s3a://something-else").cache()

print(df.count()) // trigger caching

df.createOrReplaceTempView("view2")

тогда этот вью будет висеть в памяти, пока кто-нибудь его не дропнет (или экзекьютор с данными вылетит) или spark-app не получит SIGTERM