Size: a a a

2022 January 27

k

kvadratura in Moscow Spark
файлик с 3к строк
а если хотим что-то переиспользовать в другом файлике потом?
источник

BM

Boris Malaichik in Moscow Spark
это пока не надо реюзать код между джобами. или зависимости сторонные
источник

A

Alex in Moscow Spark
ipynb-py-convert
источник

k

kvadratura in Moscow Spark
да он шутит же
источник

ЕГ

Евгений Глотов... in Moscow Spark
Берёшь пишешь фреймворк на питоне
источник

k

kvadratura in Moscow Spark
правда? 😳😳
источник

ЕГ

Евгений Глотов... in Moscow Spark
Весь етл максимум строчек 200
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это упороться надо
источник

ЕГ

Евгений Глотов... in Moscow Spark
Никакого чтения и записи, это всё во фреймворке, начиная с создания сессии
Только код бизнес-логики
источник

ЕГ

Евгений Глотов... in Moscow Spark
В идеале вообще на эскуэле, но датафреймы покомпактнее обычно
источник

k

kvadratura in Moscow Spark
т. е. ваш фреймворк брал бизнес логику, и собирал 1 файлик с инпутами, аутпутами, и бизнес-логикой?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не собирал один файлик
А импортировал бизнес-функцию из файлика и с нужными параметрами, со считанными датафреймами запускал
источник

ЕГ

Евгений Глотов... in Moscow Spark
Принимал от неё результат и записывал куда надо
источник

ЕГ

Евгений Глотов... in Moscow Spark
По конфигу
источник

k

kvadratura in Moscow Spark
ну, на одном из проектов у нас это все разрослось, и в какойпто момент мы начали собирать путон wheel и раскатывать его по кластеру при запуске. а spark-submit py файлик был очень маленький: стартовал сессию и бросал ее в основной скрипт, в котором импорты из N других скриптов wheel-а
источник

k

kvadratura in Moscow Spark
получилось тестабельно, и структура какая-никакая присутствовала, хелперы, коннекторы..
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да, в артифактори по тэгу заливался архив
источник

k

kvadratura in Moscow Spark
какое-то время жили без артефактори, с зипом. но в нем тоже модули были. правда, зависимости в отдельном месте писать нужно было. такое. но работало
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну у меня была суть именно в том, что для решения бизнес-задачи пишешь 0 лишнего кода, только бизнес-логику
источник

ЕГ

Евгений Глотов... in Moscow Spark
Никаких импортов не надо, кроме спарк-функций, получаешь спарк-сессию и датафреймы готовые и работаешь
источник