нет - никаких toPandas и сторонних питоновких либ - только чистый pyspark
по партициям - нет - еще не пробовал рулить - но я правильно понимаю - что система все равно партиционирует таблицу сама, без явного указания с моей стороны на сколько - и тут хорошо бы почитать какие то бест практисы по этому делу
skew - это что?
Data skew - просто перекос в данных, в результате чего может так получиться, что большая часть данных валится на один единственный экзекутор, который потом захлёбывается, и его отстреливает ярн. Проверьте равномерность распределения.