Телеграмм чат группы moscowspark страница 823

Size: a a a

Moscow Spark

1176 membersпожаловаться на группу

2021 September 29

Kagermanov Ramazan in Moscow Spark

Вроде как должно быть больше партиций, чем количество ядер
Это надо при записи в таблицу делать репартишион?

источник

20:42пожаловаться #1

2021 September 30

Никита in Moscow Spark

Подскажите пожалуйста, как можно в PySpark на весь датафрейм применить схему?
У меня есть DataFrame и схема в JSON с комментариями и типами данных, хочу схему применить к df.

источник

12:52пожаловаться #2

Mikhail Kuznetsov in Moscow Spark

Что значит применить? Можно прочитать со схемой.

источник

12:53пожаловаться #3

Никита in Moscow Spark

У меня есть уже готовый рассчитанный dataframe, в нем могут быть идентификаторы в string, даты в string, я хочу одним разом все привести к конкретным типам данных, а так же добавить комментарии, чтобы потом в Hive отображались.
Хочу сделать типа df.cast(schema)

источник

12:55пожаловаться #4

Mikhail Kuznetsov in Moscow Spark

List((colName, colType)).foldLeft(df) и вперед

источник

12:59пожаловаться #5

Mikhail Kuznetsov in Moscow Spark

Сори - не увидел про PySpark. Выше - скала.

источник

13:08пожаловаться #6

Никита in Moscow Spark

ну мне не только типы данных, но еще метадату нужно закинуть

источник

13:12пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Если схему сконвертируешь в StructType, то вроде можно сделать df.transform(schema)

источник

13:17пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

А вообще наверно лучше написать метод, который обходит жисон и всё конвертирует и подставляет

источник

13:18пожаловаться #9

Sergey Ivanychev in Moscow Spark

https://t.me/moscowspark/19436

Sergey Ivanychev in Moscow Spark

Вопрос: есть датафрейм (который parquet-таблица) и новая схема — я хочу поменять схему датафрейма, мб добив null’ами колонки, которые добавились. Это как-то можно вменяемо сделать (пусть даже с полной перезаписью)?

источник

13:29пожаловаться #10

Sergey Ivanychev in Moscow Spark

Там похожая проблема была

источник

13:30пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

тебе надо схему датафрейма поменять или паркет файл?

источник

13:30пожаловаться #12

Sergey Ivanychev in Moscow Spark

проблема решалась и так и так — но принципильно мне нужно было померджить схему или скастить датафрейм к произвольной схеме

источник

13:31пожаловаться #13

Sergey Ivanychev in Moscow Spark

В итоге я решил проблему так (знаю, что выглядит плохо)


df.write.parquet(Path)

df = spark.read.schema(new_schema).parquet(Path)

источник

13:32пожаловаться #14

Никита in Moscow Spark

ну ты читаешь пишешь, я хочу уже перелопаченный df привести к типам

источник

13:33пожаловаться #15

Sergey Ivanychev in Moscow Spark

I know your pain bro, но в моем случае нужно было скастить тип партицированной таблицы, и я воспользовался механизмом мерджа схемы в паркете

источник

13:34пожаловаться #16

Sergey Ivanychev in Moscow Spark

способа скастить схему датафрейма кроме указанного выше я не нашел

источник

13:34пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

Кажется это просто дифф схем с добавлением/удалением колонок

источник

13:34пожаловаться #18

Mikhail Kuznetsov in Moscow Spark

источник

13:34пожаловаться #19

Sergey Ivanychev in Moscow Spark

схема может отличаться внутренними полями, и даже типом в массивах и мапах

источник

13:35пожаловаться #20