в edgerouterах кстати используется для этого всратый cavium, и кусок говнокода который принимает первый пакет в flow, гонит его через линукс как обычно, а потом засовывает flow в чип
какой оффлоад? оно через процессор даже на 2011 перекладывает 800+, но да - в максимально простом виде через свич-то быстрее, понятно. а с тех пор и железа понавыпускалось