У меня похожая задача, в каждой строке большой бинарный объект и немного метаданных, поэтому было бы отлично, если бы spark читал сразу по одной строке в партицию RDD. Если делать по уму, то нужно записывать по одной строке в row group паркета (не знаю, как это сделать), а потом читать отдельные row group (это знаю, как сделать)