Телеграмм чат группы prographon страница 8647

У меня есть 3d текстура и надо как-то все её слои собрать в одну текстуру в compute шейдере. Есть что-то побыстрее, чем цикл по слоям?

vec4 frag = imageLoad(_combined, pos);
    for(int i = 0; i < nlayer; ++i ) {
        vec3 c = imageLoad(_buffer, ivec3(pos, i)).rgb;
        frag += vec4(c.rgb, 1);
    }
imageStore(_combined, pos, frag);

А сколько слоёв?

08:47пожаловаться #1

AF

Mind

У меня есть 3d текстура и надо как-то все её слои собрать в одну текстуру в compute шейдере. Есть что-то побыстрее, чем цикл по слоям?

vec4 frag = imageLoad(_combined, pos);
    for(int i = 0; i < nlayer; ++i ) {
        vec3 c = imageLoad(_buffer, ivec3(pos, i)).rgb;
        frag += vec4(c.rgb, 1);
    }
imageStore(_combined, pos, frag);

Можно спараллелить по блокам слоев конечноже, но вопрос нужен ли тебе такой оверхед и что быстрее

09:46пожаловаться #2

M

16 слоёв в общем. Паралелить пробовал - в результате или то же самое по времени или медленнее.

Может есть какой-то способ в одну текстуру писать из разных потоков без синхронизации?

12:39пожаловаться #3

AT

Mind

16 слоёв в общем. Паралелить пробовал - в результате или то же самое по времени или медленнее.

Может есть какой-то способ в одну текстуру писать из разных потоков без синхронизации?

Есть imageAtomicAdd для int-ов. Для float-ов тебе нужно будет делать CAS loop с imageAtomicCompSwap и intBitsToFloat и floatBitsToInt. Но стоит ли оно того? "16 выборок в цикле с одной записью" vs "16 вряд ли одновременно работающих потоков с atomic read modify write со всеми накладными расходами"? Я бы выбрал первое в 100 случаев из 100.

13:24пожаловаться #4

AF

Mind

16 слоёв в общем. Паралелить пробовал - в результате или то же самое по времени или медленнее.

Может есть какой-то способ в одну текстуру писать из разных потоков без синхронизации?

а как ты иначе параллелишь?

13:26пожаловаться #5

AF

ну типа лучше данные из группы собирать и писать одним конечно же

13:27пожаловаться #6

M

Ну я так и сделал. Но получилось что разницы либо нет, либо хуже стало

13:28пожаловаться #7

AT

было бы у тебя 1000 слоёв — вот тогда бы думать надо было, а 16 — это очень мало

13:28пожаловаться #8

AF

а как ты между группой шаришь?

13:28пожаловаться #9

AF

16 да мало

13:29пожаловаться #10

AT

never mind*

13:30пожаловаться #11

M

shared vec3[local_size_x, local_size_y, local_size_z(4)];
Потом в глубину прохожу по 4 слоя в каждом потоке и пишу сумму из нулевого

13:31пожаловаться #12

M

Просто это делается 16+ раз за кадр, и разница заметна. Даже просто разница между for (int I = 0; I < nlayer; ++I) и for (int I = 0; I < 16; ++I ) { if (I > nlayer) break; и то кадра в 3-4 выходит. Видимо втрое анролится нормально

13:37пожаловаться #13

AF

16 по 16 это не много же

13:37пожаловаться #14

M

Да вот же. Там вообще странное что-то. nsight показывает сумму всей отрисовки 3 с небольшим миллисекунд на гпу и меньше миллисекунды на цпу, а фпс в сложных местах проседает до 30 на 1080. Уже не знаю чем ещё посмотреть, чтобы понять что не так

disba1ancer in pro.graphon (and gamedev)

13:40пожаловаться #15

d

Anatoly Tomilov

Есть imageAtomicAdd для int-ов. Для float-ов тебе нужно будет делать CAS loop с imageAtomicCompSwap и intBitsToFloat и floatBitsToInt. Но стоит ли оно того? "16 выборок в цикле с одной записью" vs "16 вряд ли одновременно работающих потоков с atomic read modify write со всеми накладными расходами"? Я бы выбрал первое в 100 случаев из 100.

А разве нельзя распараллелить так чтобы чтения/записи не пересекались?

14:37пожаловаться #16

AT

disba1ancer

А разве нельзя распараллелить так чтобы чтения/записи не пересекались?

тогда смысл параллелить? Тогда это будет последоватьельно

15:03пожаловаться #17

AT