Телеграмм чат группы ProCxx страница 15894

Но а где ветвление то собственно? Вот если по порядку передали елемент на вставку таблица вычислила хеш пришла в нужный бакет (пускай у нас открытая адресация) прошлась по бакету нашла вставила или не вставила если есть или вызвала тотальный рехеш, не понимаю где отрабытывает бренч предиктор

Проблема в том, что после вычисления бакета пайплайн с высокой вероятностью будет сброшен, так как все дальнейшие вычисления будут зависеть от адреса бакета.

источник

23:29пожаловаться #3

magras in pro.cxx

Я подозреваю, что это фундаментальная проблема и теория информации может доказать что она нерешаема.

источник

23:32пожаловаться #4

Dmitriy in pro.cxx

Ioann_V

но из всех архитектур мне нравится zen 2 от AMD - там очень крутые фишки есть, которых в Интеле нету, ну то есть, очень-очень.

Тем не менее, на циклах они творят странные вещи

источник

23:38пожаловаться #5

Dmitriy in pro.cxx

Я уже несколько раз писал, что memcpy vs копирование в цикле только на Haswell+ работает одинаково быстро. А Ivy- и все AMD, включая последние, делают второе почти втрое медленнее

источник

23:39пожаловаться #6

Ilia Abernikhin in pro.cxx

@drMagras спасибо за пищу для поиска и дальнейшего изучения, ибо мой код очень сиььно завязан на хештаблице, причем, не большое совершенно не значительная оптимизация дает честные пару секунд ускорения на каждом милионе треугольников

источник

23:39пожаловаться #7

Dmitriy in pro.cxx

Да, по большей части юзкейс сомнительный, но объяснений в доках не нашёл.

источник

23:39пожаловаться #8

Ioann_V in pro.cxx

Dmitriy

Что? Я делал фаст мемцпу на симде

источник

23:40пожаловаться #9

Ioann_V in pro.cxx

и у меня было одинаково

источник

23:40пожаловаться #10

Ioann_V in pro.cxx

а проверял на amd 3900x

источник

23:40пожаловаться #11

Dmitriy in pro.cxx

Ioann_V

и у меня было одинаково

Одинаково с чем?

источник

23:40пожаловаться #12

Ioann_V in pro.cxx

Dmitriy

Одинаково с чем?

с обычным мемцпу, или rep... команда асма

источник

23:40пожаловаться #13

Dmitriy in pro.cxx

Ioann_V

с обычным мемцпу, или rep... команда асма

Моё сообщение просьба перечитать...

источник

23:41пожаловаться #14

Dmitriy in pro.cxx

Речь о цикле шла :)

источник

23:41пожаловаться #15

Ioann_V in pro.cxx

Dmitriy

я не знаю что есть копирование в цикле

источник

23:41пожаловаться #16

Ioann_V in pro.cxx

я в цикле копировал симдом АВХ, или АВХ2, не помню, но код в сети есть, если что.

источник

23:42пожаловаться #17

Ioann_V in pro.cxx

а вот на интеле, получалось что симд версия работала на 7% быстрее

источник

23:43пожаловаться #18

2020 November 01

АР

Андрей Руссков... in pro.cxx

обычно оптимизации таких вещей как memcpy контрибьютят сами разработчики процов*, так что оптимизировать вручную - не шибко благодарное занятие.

* можно ли считать это contrib'ом, если intel - основные мейнтейнеры? )

источник

01:05пожаловаться #19

АР

Андрей Руссков... in pro.cxx

если только, разумеется, ты не уверен что call обойдется тебе дороже самого копирования. Впрочем, обычно в таких случаях компиляторы умеют разворачивать memcpy

источник

01:10пожаловаться #20