вот есть на x86 FMA instruction set (fused multiply-add) — какая-то часто повторяющаяся операция в железе сделана более оптимально. Так вот эти тензорные блоки — воплощение той же самой идеи, но там операция — это матричная D=A*B+C, в которой весь варп задействован. Сейчас ещё и с загрузкой в shared memory прямой. Это основная операция в ml-е, который используется для "восстановления истинной картинки".