Size: a a a

2021 November 03

SI

Sergey Ivanychev in Moscow Spark
Привет, Spark 3.1.2.

spark.table(…).limit(1000000).collect() генерирует этот план
источник

SI

Sergey Ivanychev in Moscow Spark
источник

SI

Sergey Ivanychev in Moscow Spark
`spark.table(…).limit(1000000).toPandas()` генерирует такое
источник

SI

Sergey Ivanychev in Moscow Spark
источник

SI

Sergey Ivanychev in Moscow Spark
и падает с OOM, видимо потому что пошаффлил данные на одном экзекьютере
источник

SI

Sergey Ivanychev in Moscow Spark
Первое работает, потому что на драйвере куча памяти, чтобы собирать спарком большие датасеты
источник

SI

Sergey Ivanychev in Moscow Spark
Почему toPandas() так криво работает? Как вы собираете в пайспарке большие датасеты, скажем, для обучения?
источник

GP

Grigory Pomadchin in Moscow Spark
источник

DZ

Dmitry Zuev in Moscow Spark
читай сразу пандасом
источник

SI

Sergey Ivanychev in Moscow Spark
1) из коробки он не умеет читать из S3
2) хочется уметь SQL делать перед скачиванием датасета
источник

DZ

Dmitry Zuev in Moscow Spark
1. умеет
источник

SI

Sergey Ivanychev in Moscow Spark
уау
источник

SI

Sergey Ivanychev in Moscow Spark
не знал
источник

DZ

Dmitry Zuev in Moscow Spark
2. делай такую выборку которая влезет тебе в память, тут дело не в спарке
источник

SI

Sergey Ivanychev in Moscow Spark
ты предлагаешь выборку писать в S3 перед скачиванием, это в принципе норм
источник

SI

Sergey Ivanychev in Moscow Spark
pd.read_parquet("s3://...") прям работает?
источник

GP

Grigory Pomadchin in Moscow Spark
мне кажется просто больше памяти требует
источник

DZ

Dmitry Zuev in Moscow Spark
возможно близкое к х2
источник

GP

Grigory Pomadchin in Moscow Spark
ага
источник

GP

Grigory Pomadchin in Moscow Spark
ток s3fs или что там заинсталь
источник