Телеграмм чат группы moscowspark страница 876

Привет, Spark 3.1.2.

spark.table(…).limit(1000000).collect() генерирует этот план

17:21пожаловаться #1

17:21пожаловаться #2

`spark.table(…).limit(1000000).toPandas()` генерирует такое

17:21пожаловаться #3

17:21пожаловаться #4

и падает с OOM, видимо потому что пошаффлил данные на одном экзекьютере

17:21пожаловаться #5

Первое работает, потому что на драйвере куча памяти, чтобы собирать спарком большие датасеты

17:22пожаловаться #6

Почему toPandas() так криво работает? Как вы собираете в пайспарке большие датасеты, скажем, для обучения?

17:22пожаловаться #7

читай сразу пандасом

17:25пожаловаться #9

1) из коробки он не умеет читать из S3
2) хочется уметь SQL делать перед скачиванием датасета

17:30пожаловаться #10

1. умеет

17:31пожаловаться #11

уау

17:31пожаловаться #12

не знал

17:31пожаловаться #13

2. делай такую выборку которая влезет тебе в память, тут дело не в спарке

17:31пожаловаться #14

ты предлагаешь выборку писать в S3 перед скачиванием, это в принципе норм

17:32пожаловаться #15

pd.read_parquet("s3://...") прям работает?

17:33пожаловаться #16

мне кажется просто больше памяти требует

17:38пожаловаться #17

возможно близкое к х2

17:38пожаловаться #18

ага

17:38пожаловаться #19

ток s3fs или что там заинсталь