Телеграмм чат группы moscowspark страница 956

Подскажите, пожалуйста, есть вариант писать df в hdfs, ограничив размер файла снизу? Есть вариант, конечно, но он костыльный с предварительной оценкой размера файлов parquet

источник

13:08пожаловаться #9

kvadratura in Moscow Spark

я полагаю, что нет, т. к. к-во файлов просто равно к-во тасков на аутпуте. последнее зависит от кучи других вещей, а в конце аутпут спарк мержить не умеет. но, может, я ошибаюсь.

решения small files problem, которые я знаю -
1. repartition (включая соленый repartition, если есть data skew)
2. тюнить spark parallelism
3. юзать delta lake - в опен сорс версии там можно периодически мержить файлы, но это вроде будет full scan. и я не помню, атомарная ли это операция (не упадут ли readers, читающие файлы в момент мержа)
4. мержить файлы через parquet tools. это достаточно быстро, т. к. в этом случае не мержатся row groups, а просто аппендятся, грубо говоря
5. у hive на managed таблицах есть конфиги, позволяющие выполнять merge атомарно при записи. можно также пофиксить таблицы, где есть уже мелкие файлы. другое дело, что hive managed tables в проде - хз, надо ли

1,2,3 я использовал, работает. 4,5 - нет. хз, как работает

источник

13:16пожаловаться #10

Dmitry in Moscow Spark

Пункт 3 липа, merge тучи мелких файлов плодит

источник

23:06пожаловаться #11

Maxim Buylin in Moscow Spark

https://youtu.be/daXEp4HmS-E

YouTube

Apache Spark Core—Deep Dive—Proper Optimization Daniel Tomes Databricks

Optimizing spark jobs through a true understanding of spark core. Learn: What is a partition? What is the difference between read/shuffle/write partitions? How to increase parallelism and decrease output files? Where does shuffle data go between stages? What is the "right" size for your spark partitions and files? Why does a job slow down with only a few tasks left and never finish? Why doesn't adding nodes decrease my compute time?

About: Databricks provides a unified data analytics platform, powered by Apache Spark™, that accelerates innovation by unifying data science, engineering and business.
Read more here: https://databricks.com/product/unified-data-analytics-platform

Connect with us:
Website: https://databricks.com
Facebook: https://www.facebook.com/databricksinc
Twitter: https://twitter.com/databricks
LinkedIn: https://www.linkedin.com/company/databricks
Instagram: https://www.instagram.com/databricksinc/ Databricks is proud to announce that Gartner has named us a Leader in both the 2021 Magic Quadrant for Cloud Database Management Systems and the 2021 Magic Quadrant for Data Science and Machine Learning Platforms. Download the reports here. https://databricks.com/databricks-named-leader-by-gartner

источник

23:47пожаловаться #12

kvadratura in Moscow Spark

вы что-то неправильно делали, значит

источник

23:48пожаловаться #13

Maxim Buylin in Moscow Spark

На 33 минуте на мой взгляд неплохо рассказывает про варианты, как управлять количеством файлов на выходе. Я на практике использую дополнительную джобу, которая делает coalesce исходя из количества и размера файлов.

источник

23:49пожаловаться #14

Dmitry in Moscow Spark

Скорее вы не понимаете что такое merge. Если я вмердживаю датасет с тремя новыми строками, почти нверняка будет три новых мелких файлика, т.к нверняка все три окажутся на разных экзекьюторах. Никакой магии укрупнять у дельты нет

источник

23:53пожаловаться #15

2022 January 13

Dmitry in Moscow Spark

Repartition output data before write: For partitioned tables, merge can produce a much larger number of small files than the number of shuffle partitions. This is because every shuffle task can write multiple files in multiple partitions, and can become a performance bottleneck. In many cases, it helps to repartition the output data by the table’s partition columns before writing it. You enable this by setting the Spark session configuration spark.databricks.delta.merge.repartitionBeforeWrite.enabled to true.

источник

00:03пожаловаться #16

Nikita Blagodarnyy in Moscow Spark

@pklemenkov запинишь? Годный видос.

источник

00:29пожаловаться #17

Nikita Blagodarnyy in Moscow Spark

В народном хозяйстве помогает.

источник

00:30пожаловаться #18

kvadratura in Moscow Spark

под merge files я понимал вот это

https://docs.delta.io/latest/best-practices.html#compact-files

да, слово неверное, согласен, т. к. есть операция merge

источник

00:35пожаловаться #19

Grigory Pomadchin in Moscow Spark

держи, если полезен пусть будет в пине

источник

00:36пожаловаться #20