Телеграмм чат группы prographon страница 11287

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

pro.graphon (and gamedev)

915 membersпожаловаться на группу

2021 April 09

VK

Vitaliy ◀️TriΔng3l▶️... in pro.graphon (and gamedev)

И constant propagation для объекта справа, и анализировать operator= объекта слева, чтобы были заполнены все поля, и именно копированием (либо простым, либо заинлайненным, сводящимся к простому)

источник

13:12пожаловаться #1

D

Deathwish in pro.graphon (and gamedev)

Вообще, даже свой sse вариант на выровненной памяти похоже не быстрее memset

источник

13:13пожаловаться #2

AT

Anatoly Tomilov in pro.graphon (and gamedev)

а заглянуть что там генерируется memset-ом не судьба? Ну или почитать. Не в курсе, что memmove/memset — это уже давно intrinsic функции в компиляторах?

источник

13:14пожаловаться #3

AT

Anatoly Tomilov in pro.graphon (and gamedev)

они в оптимальный код разворачиваются с учётом всего, что знает компилятор на момент вызова

источник

13:15пожаловаться #4

AT

Anatoly Tomilov in pro.graphon (and gamedev)

так и не пойму, чем sse так хорош для копирования памяти

источник

13:15пожаловаться #5

AT

Anatoly Tomilov in pro.graphon (and gamedev)

или заполнения

источник

13:16пожаловаться #6

D

Deathwish in pro.graphon (and gamedev)

Потому что он за одну инструкцию может 16 байт обнулить

источник

13:17пожаловаться #7

VK

Vitaliy ◀️TriΔng3l▶️... in pro.graphon (and gamedev)

А AVX 32)

источник

13:17пожаловаться #8

VK

Vitaliy ◀️TriΔng3l▶️... in pro.graphon (and gamedev)

А строковые инструкции вообще как-то хитро на Intel (на AMD не знаю, дают ли прирост)

источник

13:17пожаловаться #9

VK

Vitaliy ◀️TriΔng3l▶️... in pro.graphon (and gamedev)

а вообще, топчик это GPU DMA :D

источник

13:18пожаловаться #10

VK

Vitaliy ◀️TriΔng3l▶️... in pro.graphon (and gamedev)

а, не, с PCI-Express, наверно, нет, это на UMA

источник

13:18пожаловаться #11

AT

Anatoly Tomilov in pro.graphon (and gamedev)

в цикле, наверное? То есть то, что это одна инструкция — это не важно по факту. Т.к. инструкции не-sse кода, обнуляющего память, тоже декодируются и помещаются в кеш инструкций целиком. Конвейер — не узкое место и в случае sse и в случае без sse.

источник

13:19пожаловаться #12

D

Deathwish in pro.graphon (and gamedev)

https://codearcana.com/posts/2013/05/18/achieving-maximum-memory-bandwidth.html

источник

13:24пожаловаться #13

AT

Anatoly Tomilov in pro.graphon (and gamedev)

CPU is so much faster than RAM that pure block memory copy is 100% I/O bounded отсюда

SSE-copy, AVX-copy and std::copy performance

I'm tried to improve performance of copy operation via SSE and AVX:
#include <immintrin.h>

const int sz = 1024;
float *mas = (float *)_mm_malloc(sz*sizeof(float), 16);
float ...

источник

13:25пожаловаться #14

VK

Vitaliy ◀️TriΔng3l▶️... in pro.graphon (and gamedev)

А доступ к кэшу кусочками по 4 байта вместо 16 или 32 это нормально?

источник

13:25пожаловаться #15

AT

Anatoly Tomilov in pro.graphon (and gamedev)

пишут, что доступ к данным, которые уже есть в L1 кеше, быстрее с AVX (чуть медленнее с SSE). Но при заполнении больших буферов, я так понимаю, разницы со строковой инструкцией уже нет

источник

13:26пожаловаться #16

VK

Vitaliy ◀️TriΔng3l▶️... in pro.graphon (and gamedev)

Строковые инструкции вообще как-то по-особому выполняются, как я понял

источник

13:27пожаловаться #17

VK

Vitaliy ◀️TriΔng3l▶️... in pro.graphon (and gamedev)

Не как тупо повтор одной и той же операции

источник

13:27пожаловаться #18

D

Deathwish in pro.graphon (and gamedev)

По иронии судьбы, старая команда rep stosq X86 работает намного лучше, чем SSE и AVX, с точки зрения копирования памяти!

источник

13:28пожаловаться #19

D

Deathwish in pro.graphon (and gamedev)

Вот и всё объяснение на самом деле

источник

13:29пожаловаться #20