Inside: Turing TU102

4

Ce mini-dossier est consacré sur le GPU Turing TU102. Pour  bien comprendre, il est important d’avoir au-préalable lu le Quicky expliquant l’organisation d’un GPU.

Le GPU TU102 :

La TU102  est le GPU haut de gamme de l’architecture Turing. Il anime deux modèles grand public: la GeForce RTX 2080 Ti et la TITAN RTX. Pour les professionnels, ils auront droit aux Quadro RTX 8000 et 6000, pas de modèle Tesla annoncé pour le moment.

nVidia GeForce RTX 2080 Ti
GeForce RTX 2080 Ti

Gravée en 12nm TSMC, la puce TU102 abrite 18.6 milliards de transistors sous un die de 754 mm², une taille gigantesque, et surtout un record pour le secteur grand public. Pour ce qui est du TDP, il est annoncé à 250 Watts, bien que la consommation risque d’être supérieure pour les modèles overclockés.

GPU Turing TU102

L’architecture nommée Turing (en l’honneur d’Alan Turing) est une nouvelle approche en matière de GPU. Nous avons bien affaire à beaucoup de nouveauté. Certes, nous avons toujours l’organisation type SM, GPC et tout le reste, mais énormément de modifications ont été opéré. Pour un rappel sur l’organisation d’un GPU, direction ici.

Publicité
Diagramme TU102

L’organisation du GPU :

L’architecture se base sur des SM deux fois plus petits que l’architecture Pascal. Chaque SM passe de 128 CUDA Core à 64. nVidia opte pour des unités plus compactes et nombreuses, afin de permettre plus de capacité en matière de parallélisme. La TU102 a 6 GPC, que vous pouvez voir sur le schéma ci-dessus. Chaque GPC abrite 12 SM pour 768 cores CUDA par GPC. Nous arrivons donc à un total de 4608 cores CUDA pour le TU102.

Les SM deux fois plus petits affecte également les unités TMU : on passe de 8 à 4 TMU par SM. On arrive donc à un total de 4 x 12 (SM) x 6 (GPC) donc 288 TMU.

Si on observe de plus prés le bloc SM, on remarque 3 compartiments: un pour les unités FP32, un pour les unités INT32 et un pour les Tensors Cores. L’architecture est prévue que les calculs de nombres entiers (INT) et de virgules flottantes (FP) s’effectuent en parallèle pour plus de performance.

De plus, au contraire de Pascal, les unités FP32 de Turing peuvent effectuer des calculs FP16 à 2x la vitesse du FP32. Pour ce qui est du FP64, son ratio reste à 1:32, politique public oblige.

Pour les Raster Engin, rien ne change : 1 par GPC donc 6 au total. Enfin, les unités ROP restent au nombre de 96 unités, avec 12 groupes de 8 unités (un groupe par contrôleur VRAM).

Mais toutes ces unités ne feraient rien sans la mémoire cache. Et justement celle-ci a été doublée en capacité face aux GP102 avec 6144 Ko pour la L2 (1 Mo par GPC au lieu de 512 Ko).

Les nouvelles unités :

Parlons maintenant des nouveautés majeures de Turing: les Tensors Cores et RT Cores.

Les Tensors Cores sont des unités dédiées aux calculs de l’IA (Deep Learning et Inférence) en usant de précisions de calculs faibles comme le FP16. Au contraire des unités shaders qui calculent en 2x par cycle (1 Addition et 1 Multiplication), les unités Tensors calculent sous forme de matrice 4×4, donc 16 additions et 16 multiplications par cycle.

Au niveau intégration, les Tensors Cores sont par lot de 8 unités par SM, ce qui fait 576 Tensors Cores au total dans le TU102. Elles gèrent le FP16 pour le Deep Learning, et les INT8 et INT4 pour les calculs d’inférences. Elles sont supposées atteindre 120 TFLOPs en FP16, 250 TIOPs en INT8 et 500 TIOPs en INT4. Les calculs FP16 interviennent également dans le cadre du Ray Tracing ce que nous allons voir après.

Ensuite viennent les RT Cores, dédiées aux calculs du Ray Tracing, une technologie de rendu des réflexions de la lumière et des objets sur des surfaces. Chaque SM dispose d’un RT Core, donc 72 unités au total. Niveau puissance, la TU102 atteint 10 GigaRay/s, le résultat varie selon la fréquence du GPU.

Autour du GPU :

Autre technologie nouvelle: le NVLink, elle succède au SLI. Elle atteint 100 Go/s pour la communication, qui se limite en revanche à 1 carte graphique supplémentaire, donc du 2-Way.

Pour  ce qui est de l’architecture VRAM, elle s’articule autour de la G-DDR6 sous un bus de 384-bits avec 12 contrôleurs 32-bits.

Titan RTX

Specs techniques :

Voici un récapitulatif des modèles publics et pros s’articulant autour de la TU102:

TU102

S’abonner
Notifier de
guest

4 Commentaires
Newest
Oldest Most Voted
Inline Feedbacks
Voir tous les commentaires
Grizus
Grizus
13 décembre 2018 17h54

Merci pour l’article !

MonLapin_
MonLapin_
11 décembre 2018 17h24

article pour moi assez clair et bien écris 😉

Juun
10 décembre 2018 15h43

Merci pour l’article.

BASILE
BASILE
10 décembre 2018 17h12
Répondre à  Juun

bin moi vous m’avais perdu…