Size: a a a

2021 October 01

ИК

Иван Калининский... in Data Engineers
почему же нет, функция, которая будет возвращать какое-то описание переданных колонок. Но зачем, ведь есть же лучше, есть планы, у них есть output: Seq[Attribute]
источник

D

Dmitry in Data Engineers
А чем плохо df использовать, лишние ресурсы?
источник

ЕГ

Евгений Глотов... in Data Engineers
Нет, само по себе использование названия df подразумевает, что для этого надо создать переменную df
источник

ЕГ

Евгений Глотов... in Data Engineers
В идеале [имхо] спарк-код выглядит как колбасон из методов класса Dataframe, начиная от spark.read.(...) И заканчивая .save(...)
источник

ЕГ

Евгений Глотов... in Data Engineers
Есть нюансы с несколькими подзапросами в запросе, типа джойна сложных таблиц с подгонкой их друг под друга - тут вынос в переменную уже может быть полезен
источник

ИК

Иван Калининский... in Data Engineers
Ещё бы в sql добавить подмножества полей по какому-то признаку. А то символ для всех полей есть: «*», а для всех строковых, или PK, или startWith(«_sys») нет((
источник

AE

Alexey Evdokimov in Data Engineers
ишь чё. а зачем startsWith()?
источник

ЕГ

Евгений Глотов... in Data Engineers
Не для данных в колонке, а для самих колонок
источник

AE

Alexey Evdokimov in Data Engineers
я понимаю. но зачем? какой юзкейс?
источник

ИК

Иван Калининский... in Data Engineers
Не первый раз вижу, что какой-то ETL фреймворк добавляет пачку полей с одинаковым префиксов. Взять их и что-то сделать
источник

ИК

Иван Калининский... in Data Engineers
Contains тоже неплохо
источник

ЕГ

Евгений Глотов... in Data Engineers
MetaSpark
источник

ЕГ

Евгений Глотов... in Data Engineers
источник

AE

Alexey Evdokimov in Data Engineers
теоретически ничего не мешает юзать синтаксис типа column_prefix_*
источник

AE

Alexey Evdokimov in Data Engineers
или *_contains_*
источник

ИК

Иван Калининский... in Data Engineers
Не обязательно spark, вообще sql
источник

ИК

Иван Калининский... in Data Engineers
Да, да. Вот так и в стандарт!!
источник

AE

Alexey Evdokimov in Data Engineers
и ресолвить в контекст пространства имён полей текущего запроса
источник

AE

Alexey Evdokimov in Data Engineers
только боюсь, что однозначно этого сделать нельзя
источник

ИК

Иван Калининский... in Data Engineers
Может получаться пустое множество. Где-то видел такое, валидно выводится нужное количество пустых записей
источник