Телеграмм чат группы moscowspark страница 929

Size: a a a

Moscow Spark

1196 membersпожаловаться на группу

2021 December 03

Александр in Moscow Spark

Не помогают советы с форумов

источник

13:29пожаловаться #1

Alexander Shorin in Moscow Spark

А схема у x реально изменилась? Просто как-то так

>>> df = sqlContext.createDataFrame([(1,),(2,),(3,)], ["тест пассед"])
>>> df.write.parquet('df.parquet')
21/12/03 13:49:55 WARN DFSClient: Slow ReadProcessor read fields took 59255ms (threshold=30000ms); ack: seqno: 38 reply: SUCCESS reply: SUCCESS reply: SUCCESS downstreamAckTimeNanos: 3476206 flag: 0 flag: 0 flag: 0, targets: [DatanodeInfoWithStorage[10.144.43.16:50010,DS-0a231050-09a2-416a-bb03-b97fe78a367a,DISK], DatanodeInfoWithStorage[10.144.10.5:50010,DS-82ac218a-32c0-4eaf-b7bc-5e98276d6f24,DISK], DatanodeInfoWithStorage[10.144.10.16:50010,DS-83425a8c-2b84-46c9-a334-29031ffe4978,DISK]]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python3.6/site-packages/pyspark/sql/readwriter.py", line 1249, in parquet
    self._jwrite.parquet(path)
  File "/usr/local/share/spark/python/lib/py4j-0.10.9-src.zip/py4j/java_gateway.py", line 1305, in __call__
  File "/usr/local/lib/python3.6/site-packages/pyspark/sql/utils.py", line 117, in deco
    raise converted from None
pyspark.sql.utils.AnalysisException: Attribute name "тест пассед" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.
>>> df1 = df.withColumnRenamed("тест пассед", "тест")
>>> df
DataFrame[тест пассед: bigint]
>>> df1
DataFrame[тест: bigint]
>>> df1.write.parquet('df.parquet')
>>>

источник

13:50пожаловаться #2

Александр in Moscow Spark

Да, если печатать схему, он выводит новые значения, но когда выполняется экшн действие, видимо питон пересылает все что надо сделать через scala, и тогда крэш

источник

14:36пожаловаться #3

Grigory in Moscow Spark

Всем привет! Читаю физический план запроса на вкладке SQL в веб уи спарка 2.4, и у длинных операторов типа Filescan с большим количеством условий обрезается текст и остаётся многоточие в середине. Можно ли как-то выводить полный текст?

источник

23:34пожаловаться #4

tenKe in Moscow Spark

println(df.queryExecution.executedPlan.toJson)

источник

23:36пожаловаться #5

Grigory in Moscow Spark

А в веб интерфейсе никак не получится, если заранее принты не были проставлены?(

источник

23:37пожаловаться #6

tenKe in Moscow Spark

в веб он обрезает, к сожалению

источник

23:37пожаловаться #7

tenKe in Moscow Spark

и в explain тож

источник

23:38пожаловаться #8

Grigory in Moscow Spark

Беда… Но хоть какое-то решение есть. Спасибо)

источник

23:41пожаловаться #9

2021 December 06

ANatoly in Moscow Spark

Ребят, всем привет!
Столкнулся с такой ситуацией: в одном запуске jupyter notebook запускаю разные сессии (Spark sessions) в режиме Yarn-client с разными конфигурациями, а конкретно, меняю spark.local.dir. Проблема в следующем, что после остановки предыдущей сессии, у новых сессии не меняется параметр spark.local.dir, хотя его меня через SparkConf().set(«spark.local.dir», «…»). Точнее он меняется и это я наблюдаю через spark UI в Application master, но по факту папка остаётся от предыдущей сессии.
Ещё заметил, что данный конфиг остаётся в параметре sun.java.command, а spark.local.dir установлен другой. Что можете посоветовать в данной ситуации, чтобы этот параметр менялся в каждой сессии?

источник

11:43пожаловаться #10

Михаил in Moscow Spark

а ты запускаешь spark-kernels ?

источник

12:00пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Спарк-сессия жёстко замусоривает питон-интерпретатор, стопать и запускать заново не совсем корректно, лучше рестартовать кернел

источник

12:08пожаловаться #12

ANatoly in Moscow Spark