Это пиковые значения, к которым надо ещё добавить задержки кэшей, задержки выбора линий, особенности топологии, etc. Мы, конечно, сигналы не снимали с шины, но по perf-счётчикам получается, что прокачка по IB просто инвалидирует кэши на целевой машине, а при использовании memcpy на ней же, эти кэши загружаются новыми значениями, загружается TLB и ещё что-то, возможно. Поэтому может быть выигрыш у RDMA.
Да, мы тестировали с DDR3. Возможно, имеет смысл повторить это для новых систем.