1. в обычном спарке можно из jdbc данные тянуть напрямую, даже параллелить чанками и т. д.
2. зачем кроулер что-то кроулит в постгрес? разве нельзя в глу подцепить обычный namespace, присоединенный по jdbc? т. е. в глу таблицы не появятся, но, может, оно и не надо, главное, чтобы спарк их видел