Телеграмм чат группы ntwrk страница 53151

18:03пожаловаться #1

dpdk source code: lib/librte_fib/dir24_8.c (v19.11)

у нас префетчинг лупы выглядят примерно вот так:
http://lxr.dpdk.org/dpdk/v19.11/source/lib/librte_fib/dir24_8.c#L169

lxr.dpdk.org

Elixir Cross Referencer

18:05пожаловаться #2

for (i = 0; i < prefetch_offset; i++)
    rte_prefetch0(some_ptr[i]);
for (i = 0; i < (n - prefetch_offset); i++) {
    rte_prefetch0(some_ptr[i + prefetch_offset]);
    do_work_over(some_ptr[i]);
}
for (; i < n; i++)
    do_work_over(some_ptr[i]);

18:07пожаловаться #3

получается что доступ к первому адресу в
do_work_over(some_ptr[i]);
будет дорогим, а дальше уже по накатанной

18:08пожаловаться #4

Ivan EKbfh in ntwrk

амазон приунывает всего лишь из-за гта5?

18:09пожаловаться #5

Anatoliy Kushner in ntwrk

Ivan EKbfh

амазон приунывает всего лишь из-за гта5?

ага

18:12пожаловаться #6

Working copy of vpp. Contribute to vpp-dev/vpp development by creating an account on GitHub.

https://github.com/vpp-dev/vpp/blob/master/src/vnet/ip/ip4_input.c#L238
вот так в vpp дабл луп выглядит, если интересно

GitHub

vpp-dev/vpp

18:12пожаловаться #7

Vladimir

получается что доступ к первому адресу в
do_work_over(some_ptr[i]);
будет дорогим, а дальше уже по накатанной

правда если "do_work_over(some_ptr[i]);" инлайнится, там нет барьеров и относительно мало инструкций, то в префетчинге нет смысла, так как ООО спекулятивно будет загружать данные из памяти

18:13пожаловаться #8

Ivan EKbfh in ntwrk

Anatoliy Kushner

ага

Спс

18:13пожаловаться #9

Anton Gorlov in ntwrk

хз. у меня на 1 из аплинков выросли пинги до LINX и всего что за ними.. в 2 раза

18:13пожаловаться #10

Anton Gorlov in ntwrk

увёл на другую ноду

18:13пожаловаться #11

Vladimir

for (i = 0; i < prefetch_offset; i++)
    rte_prefetch0(some_ptr[i]);
for (i = 0; i < (n - prefetch_offset); i++) {
    rte_prefetch0(some_ptr[i + prefetch_offset]);
    do_work_over(some_ptr[i]);
}
for (; i < n; i++)
    do_work_over(some_ptr[i]);

первый тоже префетчится получается?

18:13пожаловаться #12

Working copy of vpp. Contribute to vpp-dev/vpp development by creating an account on GitHub.

https://github.com/vpp-dev/vpp/blob/master/src/vnet/ip/ip4_input.c#L238
вот так в vpp дабл луп выглядит, если интересно

GitHub

vpp-dev/vpp

да, у нас похожие конструкции ща ребята из марвелла завозят для rte_graph либы в реализации роутинг ноды, в ручную анролят лупы
http://patches.dpdk.org/patch/66914/

18:18пожаловаться #13

первый тоже префетчится получается?

да, конечно

18:18пожаловаться #14

Working copy of vpp. Contribute to vpp-dev/vpp development by creating an account on GitHub.

https://github.com/vpp-dev/vpp/blob/master/src/vnet/ip/ip4_input.c#L238
вот так в vpp дабл луп выглядит, если интересно

GitHub

vpp-dev/vpp

Вот что Рей пишет по поводу анрола в впп

>Suggest you don't reuse the hand-unrolling optimization from FD.io
>VPP.
>I have never found any performance benefit from them, and they
>make the code unnecessarily verbose.

18:20пожаловаться #15

Vladimir

Вот что Рей пишет по поводу анрола в впп

>Suggest you don't reuse the hand-unrolling optimization from FD.io
>VPP.
>I have never found any performance benefit from them, and they
>make the code unnecessarily verbose.

ну вот у ментейнеров vpp другое мнение)
https://lists.fd.io/g/vpp-dev/topic/10641176#2909
хотя возможно из-за того что там и префетч по другому для каждого лупа

18:26пожаловаться #16

Vladimir Komendant in ntwrk

понятно все только в общих чертах, но очень интересно

18:26пожаловаться #17

бегло посмотрел код, похоже они не использовали префетчинг луп в том виде, в котором мы используем в дпдк (загрузка по одному с оффсетом). И да, приведеный код это не лукап, это условно санити чек пришедших пакетов, самые первые шаги обработки. Лукап делается в другой ноде

19:21пожаловаться #18

ну да, я просто для примера взял первую попавшуюся ноду

19:23пожаловаться #19

что касается лукапа, для в4 они используют mtrie 16 bit stride на первом этапе и 8bit stride на последующих. Получается 16-8-8. В дпдк у нас 24-8, получается больше памяти, но быстрее