Это значит, что понимание принципов работы спарка требует погружения в то, как там что работает - параллелизм, партиции, форматы, выделение ресурсов, закидывание тех же джарников, и т.д
Иначе можно получить миллион мелких файлов на каждую табличку, например.
И 10-часовой пайплайн вместо 10-минутного.
Если ещё и скалу добавить, то наши ребята взвоют и не поймут.