я не говорю что такой подход нежизненноспособен, но на мой архитекторский вкус тут есть расхождение между тем что обеспечивает такой артефакт, и что мы выставляем как сервис нашим пользователям.. к слову у сатанистов так много и устроено, но мы говорим про хранилищную часть даталейка, которая является объектом гарантий.. в этом смысле необходимость для разработчика думать о модели данных датапродукта не как просто df.write, а именно в терминах DDL добавляет понимания работы,и качества, ну и как я сказал нам нужен DDL, и мы его еще пишем в определенном формате потому что он идет в каталог и также мы его применяем на других сайтах куда у нас реплицируются данные средствами HDFS
в том то и дело, что подобный артефакт дает большие гарантии нежели руками написанный ddl, потому что программный подход добавляет как раз таки понимания и покрываемостью тестами,просто потому что это код и, как я уже говорил,метаданные соотвествуют данным , как минимум в рантайме( а значит в тестах).
И нет никакого отказа от гарантий, просто потому что нет разрыва того между тем, что именно считает джоба и что она отображает( а явно написанный ddl здесь лишь ручной труд и человеческий фактор)