Телеграмм чат группы hadoopusers страница 3743

14:03пожаловаться #1

Tasty Cake in Data Engineers

Всем привет. Есть датафрейм в дельте. Добавляю колонку. Сохраняю по тому же пути, где находится таблица. Идет ошибка.

Ошибка такая:
File "/root/Borneo/populate_delta_lake.py", line 100, in put_file_when_table_exists
.save(full_path)
File "/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 830, in save
self._jwrite.save(path)
File "/spark/python/lib/py4j-0.10.9-src.zip/py4j/java_gateway.py", line 1305, in call
answer, self.gateway_client, self.target_id, self.name)
File "/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 128, in deco
return f(*a, **kw)
File "/spark/python/lib/py4j-0.10.9-src.zip/py4j/protocol.py", line 328, in get_return_value
format(target_id, ".", name), value)
Py4JJavaError: An error occurred while calling o390.save.
: java.lang.NullPointerException
(далее длиннный стектрейс)

Вот добавление колонки:

structList = [(x.name,x.dataType) for x in dfSourceSchema if (x.name.upper() in colDiffAdd)]
dfMergedSchema = self.dfSink.where("1=0") # Create empty dataframe to merge Sink schema

for i in structList:
dfMergedSchema = dfMergedSchema.withColumn(i[0],lit(None).cast(i[1]))

(dfMergedSchema.write
.format("delta")
.option("mergeSchema","true")
.mode("append")
.save(full_path)
)

Может кто-то боролся с этим?

14:09пожаловаться #2

Есть тлдр?

Иван Калининский... in Data Engineers

14:18пожаловаться #3

ИК

нет))

Иван Калининский... in Data Engineers

14:18пожаловаться #4

ИК

но по-моему, всё делается в одно условие where в spark sql

14:18пожаловаться #5

Всем привет @pomadchin

15:04пожаловаться #7

там на databricks

15:05пожаловаться #8

купон на фри курсы выложили

15:05пожаловаться #9

пока пытаюсь понять: Баг это или фича

15:05пожаловаться #10

https://www.reddit.com/r/dataengineering/comments/nsqzgo/want_2000/

15:05пожаловаться #11

Nikita Blagodarnyy in Data Engineers

Граждане, что это может быть?

2021-06-07 14:20:18,480 WARN hdfs.DFSClient: Error Recovery for block BP-1302150384-10.0.XX.XXX-1591376670000:blk_1186931295_113279930 in pipeline DatanodeInfoWithStorage[10.0.YY.YY:50010,DS-31fdd1ee-b259-4047-b4c3-997e0a7c6a9d,DISK], DatanodeInfoWithStorage[10.XX.XXX.XXX:50010,DS-92c7422f-0f3f-4935-8937-6b43e3066024,DISK], DatanodeInfoWithStorage[10.0.XX.XXX:50010,DS-7e41bd5b-284b-4456-be42-4c616774a7ad,DISK]: bad datanode DatanodeInfoWithStorage[10.0.XXX.XXX:50010,DS-31fdd1ee-b259-4047-b4c3-997e0a7c6a9d,DISK]
2021-06-07 14:21:53,479 WARN hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block BP-1302150384-10.0.XX.XX-1591376670000:blk_1186931295_113280110
java.io.EOFException: Premature EOF: no length prefix available
at org.apache.hadoop.hdfs.protocolPB.PBHelper.vintPrefixed(PBHelper.java:2282)
at org.apache.hadoop.hdfs.protocol.datatransfer.PipelineAck.readFields(PipelineAck.java:244)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer$ResponseProcessor.run(DFSOutputStream.java:733)

Hello everyone! At my work I started in a project that uses hdfs and Spark. The problem here is that I'm searching for any material to study more...

15:14пожаловаться #12

Dmitry in Data Engineers

они регулярно так делают.
Вот год назад было:
https://www.reddit.com/r/apachespark/comments/fqkhsk/learn_spark/

Learn Spark

15:17пожаловаться #13

а преоформи слегка пост я в пин кину

15:24пожаловаться #14

тл др добавь к линке

15:24пожаловаться #15

Сюткин in Data Engineers

15:25пожаловаться #16

я проверил,

15:28пожаловаться #17

тред валиден

15:28пожаловаться #18

@norm_backer докладал нам о реддит треде https://www.reddit.com/r/dataengineering/comments/nsqzgo/want_2000/

Вкратце:

1. Идем сюда https://academy.databricks.com/learning-paths
2. Выбираем один из 'путей' в корзину
3. На чекауте применяем купон DB_CE

Пруфы что это не скам в картинке

15:30пожаловаться #19

Сюткин in Data Engineers

Тред валиден, да, когда регаешься в датабриксе ошибка 503