Size: a a a

2021 September 29

DM

Dmitry Mittov in Moscow Spark
Да, штука неочевидная. Источник может читаться/джоиниться по условию, но можно же придумать как с этим быть - просто показывать его, если читается хоть по одной ветке кода
источник

ЕГ

Евгений Глотов... in Moscow Spark
Называется это всё data lineage, и в идеале код и конфиги пишутся с учётом возможности его построения
источник

ЕГ

Евгений Глотов... in Moscow Spark
Тулз который отображает data lineage - apache atlas самый известный
источник

ЕГ

Евгений Глотов... in Moscow Spark
Может и попроще есть
источник

ЕГ

Евгений Глотов... in Moscow Spark
Так как спарк позволяет считать данные 100500 различными способами, и записать тоже, никто такой тулз универсальный писать не будет
источник

ЕГ

Евгений Глотов... in Moscow Spark
Но если у вас в коде например только spark.table(...)...saveAsTable(...)
источник

ЕГ

Евгений Глотов... in Moscow Spark
То тут можно и самому написать
источник

DM

Dmitry Mittov in Moscow Spark
Спасибо, посмотрю Atlas
источник

Д

Дмитрий in Moscow Spark
Вот это попроще https://github.com/MarquezProject
источник

DM

Dmitry Mittov in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
🤝
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А заведи нам ишшу в ютрек? Вероятно мы можем сделать такое. Может не завтра, но принципиально почему нет?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
У нас в планах есть датафрейм интроспекшн, это после него должно быть совсем понятно как делать
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Не вижу почему нет. Особенно если соответствующие коннекшны сконфигурированы
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну или я завтра заведу
источник

Д

Дмитрий in Moscow Spark
Все остальное - имхо больше для огромных хранилищ/дата лейков. Вот тут описание всех решёний

https://github.com/eugeneyan/applied-ml#data-discovery

И вот еще

https://github.com/opendatadiscovery/awesome-data-catalogs
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ты имеешь в виду изнутри экзекушен плана вытаскивать?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Нет, зачем?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
У тебя есть spark.read
источник

Д

Дмитрий in Moscow Spark
Уже есть такие экстракторы (не идеальные правда) , для того же маркеза - https://github.com/OpenLineage/OpenLineage/tree/main/integration/spark
источник