Size: a a a

2021 June 07

dz

dimka ztheshek in Data Engineers
спасибо
источник

TC

Tasty Cake in Data Engineers
Всем привет. Есть датафрейм в дельте. Добавляю колонку. Сохраняю по тому же пути, где находится таблица. Идет ошибка.

Ошибка такая:
 File "/root/Borneo/populate_delta_lake.py", line 100, in put_file_when_table_exists
   .save(full_path)
 File "/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 830, in save
   self._jwrite.save(path)
 File "/spark/python/lib/py4j-0.10.9-src.zip/py4j/java_gateway.py", line 1305, in call
   answer, self.gateway_client, self.target_id, self.name)
 File "/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 128, in deco
   return f(*a, **kw)
 File "/spark/python/lib/py4j-0.10.9-src.zip/py4j/protocol.py", line 328, in get_return_value
   format(target_id, ".", name), value)
Py4JJavaError: An error occurred while calling o390.save.
: java.lang.NullPointerException
(далее длиннный стектрейс)

Вот добавление колонки:

structList = [(x.name,x.dataType) for x in dfSourceSchema if (x.name.upper() in colDiffAdd)]
dfMergedSchema = self.dfSink.where("1=0") # Create empty dataframe to merge Sink schema

for i in structList:
   dfMergedSchema = dfMergedSchema.withColumn(i[0],lit(None).cast(i[1]))

(dfMergedSchema.write
       .format("delta")
       .option("mergeSchema","true")
       .mode("append")
       .save(full_path)
)

Может кто-то боролся с этим?
источник

GP

Grigory Pomadchin in Data Engineers
Есть тлдр?
источник

ИК

Иван Калининский... in Data Engineers
нет))
источник

ИК

Иван Калининский... in Data Engineers
но по-моему, всё делается в одно условие where в spark sql
источник

GP

Grigory Pomadchin in Data Engineers
источник

ET

E T in Data Engineers
Всем привет @pomadchin
источник

ET

E T in Data Engineers
там на databricks
источник

ET

E T in Data Engineers
купон на фри курсы выложили
источник

ET

E T in Data Engineers
пока пытаюсь понять: Баг это или фича
источник

ET

E T in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
Граждане, что это может быть?

2021-06-07 14:20:18,480 WARN hdfs.DFSClient: Error Recovery for block BP-1302150384-10.0.XX.XXX-1591376670000:blk_1186931295_113279930 in pipeline DatanodeInfoWithStorage[10.0.YY.YY:50010,DS-31fdd1ee-b259-4047-b4c3-997e0a7c6a9d,DISK], DatanodeInfoWithStorage[10.XX.XXX.XXX:50010,DS-92c7422f-0f3f-4935-8937-6b43e3066024,DISK], DatanodeInfoWithStorage[10.0.XX.XXX:50010,DS-7e41bd5b-284b-4456-be42-4c616774a7ad,DISK]: bad datanode DatanodeInfoWithStorage[10.0.XXX.XXX:50010,DS-31fdd1ee-b259-4047-b4c3-997e0a7c6a9d,DISK]
2021-06-07 14:21:53,479 WARN hdfs.DFSClient: DFSOutputStream ResponseProcessor exception  for block BP-1302150384-10.0.XX.XX-1591376670000:blk_1186931295_113280110
java.io.EOFException: Premature EOF: no length prefix available
       at org.apache.hadoop.hdfs.protocolPB.PBHelper.vintPrefixed(PBHelper.java:2282)
       at org.apache.hadoop.hdfs.protocol.datatransfer.PipelineAck.readFields(PipelineAck.java:244)
       at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer$ResponseProcessor.run(DFSOutputStream.java:733)
источник

D

Dmitry in Data Engineers
они регулярно так делают.
Вот год назад было:
https://www.reddit.com/r/apachespark/comments/fqkhsk/learn_spark/
источник

GP

Grigory Pomadchin in Data Engineers
а преоформи слегка пост я в пин кину
источник

GP

Grigory Pomadchin in Data Engineers
тл др добавь к линке
источник

С

Сюткин in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
я проверил,
источник

GP

Grigory Pomadchin in Data Engineers
тред валиден
источник

GP

Grigory Pomadchin in Data Engineers
@norm_backer докладал нам о реддит треде https://www.reddit.com/r/dataengineering/comments/nsqzgo/want_2000/

Вкратце:

1. Идем сюда https://academy.databricks.com/learning-paths
2. Выбираем один из 'путей' в корзину
3. На чекауте применяем купон DB_CE

Пруфы что это не скам в картинке
источник

С

Сюткин in Data Engineers
Тред валиден, да, когда регаешься в датабриксе ошибка 503
источник