Size: a a a

2021 May 19

ЕГ

Евгений Глотов... in Data Engineers
Регистрация UDF для spark-sql
источник

ЕГ

Евгений Глотов... in Data Engineers
Если бы броадкаст ещё работал😆
источник

ЕГ

Евгений Глотов... in Data Engineers
А то спарк такой "нууу у тебя же тут 85 партиций, я не буду это броадкастить, ну и что, что ты написал броадкаст, а в табличке тыща записей"
источник

N

Nikita Blagodarnyy in Data Engineers
Типизация и её влияние на серде тайм.
источник

N

Nikita Blagodarnyy in Data Engineers
Маппортишон для обогащения на внешнем источнике.
источник

V

Vladislav Gotsulyak in Data Engineers
Salting
источник

AB

Anatoly B in Data Engineers
👍придётся ещё самому почитать ахах
источник

ЕГ

Евгений Глотов... in Data Engineers
О, кстати, сокращение времени за счёт селекта нескольких колонок из широкого орка/паркета
источник

AB

Anatoly B in Data Engineers
ну это да, в плане UDF это я и имел ввиду, хотя это какая-то боль честно говоря и так лучше не делать...
источник

N

Nikita Blagodarnyy in Data Engineers
Ну тут надо сначала начать, зачем это воротится то всё.
источник

AB

Anatoly B in Data Engineers
какая-то джедайская техника
источник

ЕГ

Евгений Глотов... in Data Engineers
Бакет сохранение и джойн можно посмотреть
источник

V

Vladislav Gotsulyak in Data Engineers
Расскажи про работу с физ.планом запроса, тюнинг конфига сессии, имхо это полезно для начинающих)
источник

V

Vladislav Gotsulyak in Data Engineers
Согласен)
источник

AB

Anatoly B in Data Engineers
физплан может быть, на счёт тюнинга конфига - это немного не про SQL кажется, может потом им расскажем
так уж вышло что чуваки изучают Spark не зная SQL от слова совсем
источник

V

Vladislav Gotsulyak in Data Engineers
Печаль
источник

N

Nikita Blagodarnyy in Data Engineers
Неправда. Не всегда и иногда по-другому никак, встроенных функций на всё не хватает. Байтовые массивы отлично разбирает.
источник

AB

Anatoly B in Data Engineers
не спорю, иногда надо, но если можно избежать - стоит избежать, обычно
особенно в ограничениях pyspark
источник

ЕГ

Евгений Глотов... in Data Engineers
Вообще для начала про синие кубики на вкладке sql рассказать, и как они мапятся на стейджи
источник

N

Nikita Blagodarnyy in Data Engineers
Открой любой спарк даг, там 80% это маппартишоны всякие.
источник