Size: a a a

2020 February 26

AE

Alexey Evdokimov in Data Engineers
(я так и делал, но изредка бывают по два-три джоба на том же кластере, там лайви прям рулит. благо в авсе он в комплекте.)
источник

Н

Никита in Data Engineers
Ребят, подскажите плс. Spark не видит базы
df.write.mode("overwrite").format("parquet").saveAsTable("xxxx.yyyy")
pyspark.sql.utils.AnalysisException: u"Database 'xxxx' not found;"

HIVE_CONF_DIR есть, пробовал в spark'е назначать spark.sql.warehouse.dir. Все равно не помогает. Через hive cli видит.

spark = (
   SparkSession.builder.appName("Event Sale: Creating parquet table")
   # .config("spark.sql.warehouse.dir", "/user/hive/warehouse")
   # .config("hive.metastore.warehouse.dir", "/user/hive/warehouse")
   .enableHiveSupport()
   .getOrCreate()
)
spark.sql("show databases").show()
источник

M

Mi in Data Engineers
А метастор видит?
источник

Н

Никита in Data Engineers
Как это можно проверить? Возвращает пустоту
sqlContext = HiveContext(spark)
sqlContext.tables().show()
20/02/26 15:41:16 WARN metastore.ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
источник

M

Mi in Data Engineers
а где это все запускается?
источник

Н

Никита in Data Engineers
в pyspark shell
источник

M

Mi in Data Engineers
я про окружение
источник

Н

Никита in Data Engineers
ну в докер контейнере, хадуп хайв ярн в клоудере
источник

M

Mi in Data Engineers
hive.metastore.uris там что-нибудь есть?
источник

Н

Никита in Data Engineers
в hive-site.xml да thrift://*
источник

Н

Никита in Data Engineers
>>> spark.catalog.listDatabases()
[Database(name=u'default', description=u'Default Hive database', locationUri=u'file:/usr/local/airflow/spark-warehouse')]
источник

Н

Никита in Data Engineers
может это потому что вот так? а почему не смотрит в hive-site
источник

M

Mi in Data Engineers
источник
2020 February 27

A

Alex in Data Engineers
раз подняли тему livy:

они там до сих пор не могут 2.12 скалу прикрутить
а в спарке 3.0 2.11 уже выпилят

кто-то уже готовил патчи на поддержку или все ещё куда-то сваливать собираются?
источник

VZ

Vitali Z in Data Engineers
Alex
раз подняли тему livy:

они там до сих пор не могут 2.12 скалу прикрутить
а в спарке 3.0 2.11 уже выпилят

кто-то уже готовил патчи на поддержку или все ещё куда-то сваливать собираются?
Пока терпим
источник

AC

Alexander Chermenin in Data Engineers
https://issues.apache.org/jira/browse/LIVY-423 если кто хочет, может заняться на досуге :)
источник

AC

Alexander Chermenin in Data Engineers
Хотя кажется уже в работе:
Gabor Tompa added a comment - 2 days ago
Hi! I'm currently working on this issue, ETA 1 or 2 weeks for Scala 2.12 Support with Spark 2.4.5
источник

BK

Brusе Kawabata in Data Engineers
О чем этот варнинг в спарке говорит: WARN FileStreamSource: Listed 12319 file(s) in 4574.3171 ms ?
источник

BK

Brusе Kawabata in Data Engineers
Я читаю джейсоны с помощью стриминга структурированного
источник

R

Renarde in Data Engineers
Brusе Kawabata
О чем этот варнинг в спарке говорит: WARN FileStreamSource: Listed 12319 file(s) in 4574.3171 ms ?
Спарк читает все файлы в папке чтобы сделать схему
источник