Телеграмм чат группы hadoopusers страница 1952

00:14пожаловаться #9

DM

Как можно сделать вложенные схемы полей lowercase dataframe в spark sql? Пробовал withColumn, но он меняет только верхнеуровневую структуру полей, например у меня есть сложная структура (nested) где скажем поле это целый Array (ArrayType) структур (Struct) в котором два-три поля, эти поля все с большой буквы, мне же нужно сделать их все с маленькой?

14:13пожаловаться #10

DM

Если бы была 1 таблица, то я бы сделал withColumn("colName", col("ttt").cast("array<struct<k:string,c:double>>") и это сработало бы

14:14пожаловаться #11

DM

но таблиц много

14:15пожаловаться #12

DM

Rename nested struct columns in a Spark DataFrame

нашел такой вариант, но у меня почему то в поля в вложенные все равно не меняются https://stackoverflow.com/questions/55362429/rename-nested-struct-columns-in-a-spark-dataframe

Stack Overflow

I am trying to change the names of a DataFrame columns in scala. I am easily able to change the column names for direct fields but I'm facing difficulty while converting array struct columns.

Belo...

14:16пожаловаться #13

t

tenKe in Data Engineers

Как можно сделать вложенные схемы полей lowercase dataframe в spark sql? Пробовал withColumn, но он меняет только верхнеуровневую структуру полей, например у меня есть сложная структура (nested) где скажем поле это целый Array (ArrayType) структур (Struct) в котором два-три поля, эти поля все с большой буквы, мне же нужно сделать их все с маленькой?

1) spark.read.json(df.toJson.map(_.toLowerCase))
2) через struct из o.a.s.sql.functions
3) через .cast(“””ddl here”””)

16:48пожаловаться #14

t

tenKe in Data Engineers

первый вариант самые топорный, но позволяет в одну строчку все сделать. Остальные два требуются написания кода по обходу дерева схемы

16:49пожаловаться #15

DZ

Dmitry Zuev in Data Engineers

Как можно сделать вложенные схемы полей lowercase dataframe в spark sql? Пробовал withColumn, но он меняет только верхнеуровневую структуру полей, например у меня есть сложная структура (nested) где скажем поле это целый Array (ArrayType) структур (Struct) в котором два-три поля, эти поля все с большой буквы, мне же нужно сделать их все с маленькой?

В схеме все привести в ловеркейс и сделать каст

16:50пожаловаться #16

DZ

Dmitry Zuev in Data Engineers

Рекурсивно конечно

16:50пожаловаться #17

DZ

Dmitry Zuev in Data Engineers

Если бы была 1 таблица, то я бы сделал withColumn("colName", col("ttt").cast("array<struct<k:string,c:double>>") и это сработало бы

Вот так, только напишите функцию и рекурсивно в ней обходите

16:51пожаловаться #18

DM

@tenKe 1)у меня ORC файлы, наврядли такое подойдет. 2) не совсем понял. 3) кастить каждое поле вы имеете виду? Я не могу скастить каждое поле так как таблиц очень много и полей тоже, будет большущая лапша

17:28пожаловаться #19

t

tenKe in Data Engineers

@tenKe 1)у меня ORC файлы, наврядли такое подойдет. 2) не совсем понял. 3) кастить каждое поле вы имеете виду? Я не могу скастить каждое поле так как таблиц очень много и полей тоже, будет большущая лапша

1) ну ты читаешь свой orc и дальше делаешь как я написал.
2) Сначала раскладываешь df на плоские колонки, потом переименовываешь их и потом собираешь обратно в nested
3) напиши функцию. df.schema возвращает схему с описанием всех полей и генерируй ddl автоматически из схемы