надо смотреть во что у вас там упирается, в IO или во что-то другое
cs и in это context switches/interruptions, меньше - лучше
я так понимаю у вас есть нагрузочные тесты - посмотрите с 16 тредами и с 32 разницу в cs
волшебства же нет - там всего 16 тредов одновременно могут работать, если сделать тредов больше, то ядер всем всё равно не хватит