@noraltavir в общем, попрофайлил ещё раз, с более-менее одинаковым кодом
java имплементация быстрее:
requestResponse: в 1.2 раза
requestStream: в 2.7 раза
requestChannel: в 2.4 раза
не пробовал делать что-то с buffer pool io, потому что там много expect/actual и internal api, не так много времени на это
так что, не в 10 раз, но в 2-3 раза медленнее
это уже думаю можно по большей части списать на мой код + на IO