мы храним тестовую дату в самом коде. лист из туплов -> createDataFrame
типа такого. хорошо, т. к. тестовая дата лежит обычно в том же файле, что и сам тест. в итоге и дифф в гите читабельный, и к-во файлов при изменении небольшое
И ещё вопрос - а кто-нибудь использует типизированные датасеты? Да, поначалу не очень удобно, но когда всё готово, удобно поддерживать, типа переименовал/добавил/удалил атрибут, и компилятор всё показывает