Size: a a a

2022 February 03

A

Alex in Moscow Spark
Метаданные всегда есть в метасторейдже
источник

k

kvadratura in Moscow Spark
ну, когда без метаданных данные читаются по-другому - это может принести проблемы
источник

K

KrivdaTheTriewe in Moscow Spark
если просто.withColumn("udt",lit("20200507")).partitionBy("udt").write.parquet("path")
источник

A

Alex in Moscow Spark
Когда без меты то да, но это не наш случай....
источник

I

Ivan in Moscow Spark
я сегодня с этим столкнулся буквально))))
источник

k

kvadratura in Moscow Spark
прост еще один способ сломаться. их и так хватает..
источник

K

KrivdaTheTriewe in Moscow Spark
spark.read.parquet("path") //здесь может быть стать интом
источник

K

KrivdaTheTriewe in Moscow Spark
чисто теоретически оно может там как то динамически в фильтрах и условиях скастовать
источник

K

KrivdaTheTriewe in Moscow Spark
но на всякий случай, лучше явно задавать
источник

I

Ivan in Moscow Spark
а почему метаданные возникают только на этапе записи? я столкнулся с тем, что он lit('yyyy-mm-dd') записал как timestamp, хотя я рассчитывал на string
источник

I

Ivan in Moscow Spark
пришлось в явном виде задавать тип
источник

K

KrivdaTheTriewe in Moscow Spark
там бывает такое. что по факту это там не приведт. к ошибке так как будет динамик кастинг
источник
2022 February 04

PL

Pavel Lu in Moscow Spark
Всем привет, подскажите плз, может кто знает - как заставить спарк резать данные на честные 3000 партиций, когда файл записан в 300 партициях? Я ему делаю repartition(), но он добавляет к 300 партициям пустые 2700 партиций
источник

PL

Pavel Lu in Moscow Spark
cache().count() что-ли добавить...
источник

k

kvadratura in Moscow Spark
а какая у вас проблема? или - надзадача, если хотите

что происходит после repartition?

и еще вопрос: какой формат у файлов, которые читаются?
источник

PL

Pavel Lu in Moscow Spark
формат паркет. Ну там обычная работа, всякая логика накручена, без оконных функций, если что. Задача - ускорить работу
источник

k

kvadratura in Moscow Spark
вы просто подаете N в repartition()? или еще какое-то поле?
источник

PL

Pavel Lu in Moscow Spark
пробовал без поля, пробовал с rand(), пробовал с бизнес-ключом - одинаково
источник

ИК

Иван Калининский... in Moscow Spark
а сколько там данных? может count = 300?
источник

PL

Pavel Lu in Moscow Spark
сотня гигов
источник