Size: a a a

2021 October 11

NZ

Nastya Zhuk in Moscow Spark
если надо памятку тоже могу выкопать

апд «памятка» https://email.jugru.org/view.html?x=a62e&m=7pdYE&u=sh2Nv&z=IcBB4hG&o=pp_1
источник

GP

Grigory Pomadchin in Moscow Spark
🔥
источник

GP

Grigory Pomadchin in Moscow Spark
а есть?)
источник

NZ

Nastya Zhuk in Moscow Spark
у саппорта все есть. это в бигдате я ничего не понимаю
источник
2021 October 12

VI

Vladimir Ilyushkin in Moscow Spark
Апну
источник

А

Алексей in Moscow Spark
использую, у меня работает в таком виде, как написано
источник

ИК

Иван Калининский... in Moscow Spark
Должно работать строго так, как описано. Можно подробнее кейс, как сделана запись, что в сторадже?

И я не использую spark.sql.files.maxPartitionBytes. Этот параметр и spark.sql.files.openCostInBytes подобны двум бамбуковым палочкам, которыми нужно сложить дом из камней))

У меня есть возможность делать свои имплементации FileSourceScanExec, я делаю чтение, как нужно. Соединяю «соседние» по определенным признакам файлы, или читаю строго по файлам. Как мне нужно, так и читаю.
источник

VI

Vladimir Ilyushkin in Moscow Spark
источник

VI

Vladimir Ilyushkin in Moscow Spark
Пробую применить к большой табличке примерно 3тб. Не работает.
источник

ИК

Иван Калининский... in Moscow Spark
таблица читается для пересохранения, или делается groupBy().agg() или df.count?
источник

VI

Vladimir Ilyushkin in Moscow Spark
Читается с фильтром без группировки
источник

ИК

Иван Калининский... in Moscow Spark
должно получаться порядка 15000 партиций в RDD, если это таблица 3 Тб, состоящая из файлов в разделяемом формате: parquet, ORC, несжатые csv, json
источник

VI

Vladimir Ilyushkin in Moscow Spark
Партиций примерно 33500, тип таблицы паркет.
источник

ИК

Иван Калининский... in Moscow Spark
33500 партиций - в смысле hive партиции, папки в сторадже?
источник

VI

Vladimir Ilyushkin in Moscow Spark
Это что возвращает функция getNumPartition
источник

ИК

Иван Калининский... in Moscow Spark
ну, вполне может быть, скорее потому, что maxPartitionBytes не изменён, а стандартный, 128Мб
источник

VI

Vladimir Ilyushkin in Moscow Spark
Я пытался поставить 200мб их должно было стать в двое меньше примерно
источник

VI

Vladimir Ilyushkin in Moscow Spark
Но не работает
источник

ИК

Иван Калининский... in Moscow Spark
spark.read
 .option("spark.sql.files.maxPartitionBytes", 200 * 1024 * 1024)
 .table(table_name)
источник

ИК

Иван Калининский... in Moscow Spark
попробуй так, чтобы не спарк уклонился))
источник