Коллеги, всем привет!
Вопрос
Есть папка в HDFS, в ней лежат паркеты. Паркеты имеют одну из двух схем:
- либо col_1, col_2, col_3
- либо col_1, col_2, col_4, col_5
Все колонки в обоих схемах являются nullable
Если я читаю спарком всю папку целиком и не указываю mergeSchema - то получившийся датафрейм имеет первый вариант схемы:
col_1, col_2, col_3
Кто-нибудь может объяснить почему это работает именно так?
Спасибо заранее