Size: a a a

2021 December 03

А

Александр in Moscow Spark
Не помогают советы с форумов
источник

AS

Alexander Shorin in Moscow Spark
А схема у x реально изменилась? Просто как-то так
>>> df = sqlContext.createDataFrame([(1,),(2,),(3,)], ["тест пассед"])
>>> df.write.parquet('df.parquet')
21/12/03 13:49:55 WARN DFSClient: Slow ReadProcessor read fields took 59255ms (threshold=30000ms); ack: seqno: 38 reply: SUCCESS reply: SUCCESS reply: SUCCESS downstreamAckTimeNanos: 3476206 flag: 0 flag: 0 flag: 0, targets: [DatanodeInfoWithStorage[10.144.43.16:50010,DS-0a231050-09a2-416a-bb03-b97fe78a367a,DISK], DatanodeInfoWithStorage[10.144.10.5:50010,DS-82ac218a-32c0-4eaf-b7bc-5e98276d6f24,DISK], DatanodeInfoWithStorage[10.144.10.16:50010,DS-83425a8c-2b84-46c9-a334-29031ffe4978,DISK]]
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
 File "/usr/local/lib/python3.6/site-packages/pyspark/sql/readwriter.py", line 1249, in parquet
   self._jwrite.parquet(path)
 File "/usr/local/share/spark/python/lib/py4j-0.10.9-src.zip/py4j/java_gateway.py", line 1305, in __call__
 File "/usr/local/lib/python3.6/site-packages/pyspark/sql/utils.py", line 117, in deco
   raise converted from None
pyspark.sql.utils.AnalysisException: Attribute name "тест пассед" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.
>>> df1 = df.withColumnRenamed("тест пассед", "тест")
>>> df
DataFrame[тест пассед: bigint]
>>> df1
DataFrame[тест: bigint]
>>> df1.write.parquet('df.parquet')
>>>
источник

А

Александр in Moscow Spark
Да, если печатать схему, он выводит новые значения, но когда выполняется экшн действие, видимо питон пересылает все что надо сделать через scala, и тогда крэш
источник

G

Grigory in Moscow Spark
Всем привет! Читаю физический план запроса на вкладке SQL в веб уи спарка 2.4, и у длинных операторов типа Filescan с большим количеством условий обрезается текст и остаётся многоточие в середине. Можно ли как-то выводить полный текст?
источник

t

tenKe in Moscow Spark
println(df.queryExecution.executedPlan.toJson)
источник

G

Grigory in Moscow Spark
А в веб интерфейсе никак не получится, если заранее принты не были проставлены?(
источник

t

tenKe in Moscow Spark
в веб он обрезает, к сожалению
источник

t

tenKe in Moscow Spark
и в explain тож
источник

G

Grigory in Moscow Spark
Беда… Но хоть какое-то решение есть. Спасибо)
источник
2021 December 06

A

ANatoly in Moscow Spark
Ребят, всем привет!
Столкнулся с такой ситуацией: в одном запуске jupyter notebook запускаю разные сессии (Spark sessions) в режиме Yarn-client  с разными конфигурациями, а конкретно, меняю spark.local.dir. Проблема в следующем, что после остановки предыдущей сессии, у новых сессии не меняется параметр spark.local.dir, хотя его меня через SparkConf().set(«spark.local.dir», «…»). Точнее он меняется и это я наблюдаю через spark UI в Application master, но по факту папка остаётся от предыдущей сессии.
Ещё заметил, что данный конфиг остаётся в параметре sun.java.command, а spark.local.dir установлен другой. Что можете посоветовать в данной ситуации, чтобы этот параметр менялся в каждой сессии?
источник

М

Михаил in Moscow Spark
а ты запускаешь spark-kernels ?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк-сессия жёстко замусоривает питон-интерпретатор, стопать и запускать заново не совсем корректно, лучше рестартовать кернел
источник

A

ANatoly in Moscow Spark
Позже напишу какие использую кофигурации, но кернел обычный питоновский, точне кернел из CDH parcel
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это не единственный параметр, который ломается
источник

VI

Vladimir Ilyushkin in Moscow Spark
Как часто рестартовать ? После каждого запроса? У меня сессия висит по 5 дней бывает.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Точно требуется при попытке поменять параметры, которые нельзя поменять на лету
источник

ЕГ

Евгений Глотов... in Moscow Spark
Возможно к ним относится и spark.local.dir
источник

VI

Vladimir Ilyushkin in Moscow Spark
Понял, спасибо.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Я имею в виду, что
spark.stop()
spark = SparkSession...getOrCreate()
Может выдавать недетерминированный результат
источник

VI

Vladimir Ilyushkin in Moscow Spark
Хмм,  а вот это интересно. Может поэтому у меня не работал параметр MaxPartitionBytes
источник