Size: a a a

2021 June 05

D

Dmitry in Data Engineers
Спасибо!
источник

NN

No Name in Data Engineers
Почему именно с дельта лейком, а не с айсбергом или худи? Или ещё чем-нибудь? Мне кажется, лучше начать просто с ванили.
источник

MZ

Maxim Zadonskiy in Data Engineers
Всем привет!
источник

MZ

Maxim Zadonskiy in Data Engineers
Расскажите насколько актуален sql в spark?
источник

I

Ilya in Data Engineers
SQL актуален в data engineering
источник

TC

Tasty Cake in Data Engineers
Привет. Я активно юзаю в спарке sql. Можно трансформировать данные в датафреймах, как пример. Особенно проще именно на сиквеле это сделать, когда в даунстриме, допустим, структура динамическая, добавляются новые поля, часть полей имеет другие названия
источник

MZ

Maxim Zadonskiy in Data Engineers
А что ещё можно делать?
источник

TC

Tasty Cake in Data Engineers
А на питоне/скале/джаве задачу работы с датафреймами, когда в сорсе структура динамическая - сделать тяжело
источник

TC

Tasty Cake in Data Engineers
я использую сиквел для этого. Ну, вообще, сиквел мышление очень важно - группировка, сортировка, партицирование данных
источник

MZ

Maxim Zadonskiy in Data Engineers
Экстракты?
источник

TC

Tasty Cake in Data Engineers
Хороший вопрос. Спасибо, коллега. Я зашел на сайт худи - мне показалось, что это легаси. Ну и ко мне за год от рекрутеров не приходило оппортюнити уметь в худи. Насчет айсберга - я не могу понять, зачем он нужен, когда можно сделать решение на дельталейке. При этом дельталейк активно продвигается датабриксом. Ну и складывается впечатление, что худи и айсберг это очень нишевые тулы, в отличие от хадупа, хайва, спарка. Ну и дельту запустить - просто указать через параметры спарк-сабмита библиотеку
источник

TC

Tasty Cake in Data Engineers
не только извлечение. в первую очередь, когда ты выполняешь spark.select("SOME SELECT SQL EXPRESSION")  - у тебя формируется датафрейм. Просматривая данные в датафрейме, данные представлены в табличной структуре
источник

MZ

Maxim Zadonskiy in Data Engineers
Синтаксис сильно отличается?
источник

TC

Tasty Cake in Data Engineers
от чего? -)
источник

MZ

Maxim Zadonskiy in Data Engineers
От других
источник

TC

Tasty Cake in Data Engineers
Ну и еще. Если работаем со спарком от датабрикса, то можем делать DML операции над единичными строками (INSERT/UPDATE/DELETE)
источник

TC

Tasty Cake in Data Engineers
пожалуйста, напишите ваш вопрос детальнее. Мне непонятно
источник

MZ

Maxim Zadonskiy in Data Engineers
От transact-sql синтаксис сильно отличается при работе со spark?
источник

T

T in Data Engineers
Дельту имеет смысл тащить только если есть рантайм от бриксов. По поводу рекрутеров это так себе метрика, вероятно вы просто в пузыре. На пример, меня раньше тоже только на Aws и скалу звали.
источник

АР

Андрей Романов... in Data Engineers
это если работать с дельтой?

или  у них такой функционал для всех форматов?
источник