01-10-2021, 02:17 PM
Nash escreveu: (01-10-2021, 01:57 PM)Tensor cores mesmo, diz explicitamente na própria patente.Pois é, multiplicação de 16bit/8bit
"In certain example embodiments, the techniques herein may advantageously take advantage of NVIDIA's tensor cores (or other similar hardware). A tensor core may be a hardware unit that multiplies two 16×16 FP16 matrices (or other sized matrices depending on the nature of the hardware), and then adds a third FP16 matrix to the result by using fused multiply—add operations, and obtains an FP16 result. In certain example embodiments, a tensor core (or other processing hardware) can be used to multiply two 16×16 INT8 matrices (or other sized matrices depending on the nature of the hardware), and then add a third INT32 matrix to the result by using fused multiply-add operations and obtain an INT32 result which can then be converted to INT8 by dividing by the appropriate normalization amount (e.g., which may be calculated during a training process, such as described in connection with FIG. 9). Such conversions may be accomplished using, for example, a low processing cost integer right shift. Such hardware acceleration for the processing discussed herein (e.g., in the context the separable block transforms) may be advantageous."
Yep! Muito provavelmente houve uma mudança de planos nesse meio tempo e adiaram o bagulho para sabe-se lá quando.
Mas pra explicar qual é a importância aqui, temos que falar de processamentos de números paralelos!
O "tl'dr" é que você pode picar unidades de ALU pra processar um grande numero de números de precisão menor.
Tipo picar uma ALU de 128 bits pra processar quatro números de 32bit, ou oito números de 16 bits etc..
Como DLSS etc não liga muito pra precisão numérica, você pica as ALUs mais ainda e liga o foda-se. Se eu não me engano, dá pra picar até em 4 bits em geforces mais novas.