Можно попробовать поискать флажок, обнуляющий метаданные, чтоб заставить спарк каждый раз с нуля читать список файлов, а не доставать из кеша, а потом офигевать, что файлов нет
ну вот рефреш должен это делать, но я пока не понимаю куда его прописать, чтобы он в нужный момент делал рефреш, видимо придется разбить по блокам -вычислений код, и перед блоком-вычислений делать рефреш