Ну то есть длинный top to eop ещё не показатель того, что этот вызов медленный и нужно его оптимайзить? Потому что планировщик, например, ждёт текстуры и выполняет другой шейдак?
Параллельные draw callы выполняются на одних и тех же вычислительных ресурсах, причём на разнородных, в каких-то вызовах может быть много вершин, но все полигоны отсекутся, где-то будем упираться в передачу параметров вершин в пиксельный шейдер (причём проблема может быть и с одной, и с другой стороны), где-то мало вершин, но большой кусок фреймбуфера будет покрыт, и будем и пиксельный шейдинг, и ROPы нагружать, а может быть и всего примерно поровну