Самая производительная система, как по мне, это N воркеров (процессов) на N + 1 ядер процессора, по ядру на воркер и плюс ядро на систему.
В каждом воркере обработчик сообщений плюс event loop для обработки асинхронных действий, чтобы ядро не простаивало. Тогда будет минимум оверхеда и эффективность максимальная.
Ну ещë можно постараться убрать все системные вызовы, чтобы вообще не блочилось.
Что будет быстрее такой схемы, не представляю.