Всем привет! Подскажите пожалуйста, влияет ли число партиций данных на скорость чтения паркет-файлов спарком? Условно, будут ли данные читаться с разной скоростью, если у меня:
По моему опыту влияет. Если речь идёт о чтении из отдельных файлов, то второй кейс быстрее. Очень наглядно проявляется, когда половина таблицы состоит из мелких файлов, задание застревает после середины выполнения и идёт медленнее