На GPU тебе по-любому придётся отправлять их одним потоком
почему же? можно несколько очередей задействовать в разных потоках. По факту у nvidia есть только два движка для копирования и они могут работать только в полудуплексном режиме, т.е. один CPU->GPU, а другой GPU->CPU, если одновременно