Agence web » Actualités du digital » GPU NVIDIA RTX 3000 Series: voici les nouveautés

GPU NVIDIA RTX 3000 Series: voici les nouveautés

Le 1er septembre 2020, NVIDIA a dévoilé sa nouvelle gamme de GPU de jeu: la série RTX 3000, basée sur leur architecture Ampere. Nous discuterons des nouveautés, du logiciel alimenté par l'IA qui l'accompagne et de tous les détails qui rendent cette génération vraiment géniale.

Découvrez les GPU de la série RTX 3000

L'annonce principale de NVIDIA a été ses nouveaux GPU brillants, tous construits sur un processus de fabrication 8 nm personnalisé, et tous apportant des accélérations majeures en termes de performances de rastérisation et de lancer de rayons.

Dans le bas de la gamme, il y a le RTX 3070, qui coûte 499 $. C'est un peu cher pour la carte la moins chère dévoilée par NVIDIA lors de l'annonce initiale, mais c'est un vol absolu une fois que vous apprenez qu'elle bat la RTX 2080 Ti existante, une carte haut de gamme qui se vendait régulièrement plus de 1400 $. Cependant, après l'annonce de NVIDIA, le prix de la vente aux tiers a chuté, un grand nombre d'entre eux étant vendus en panique sur eBay pour moins de 600 $.

Il n’existait pas de référence solide au moment de l’annonce. On ne sait donc pas si la carte est vraiment objectivement «meilleur» qu'un 2080 Ti, ou si NVIDIA déforme un peu le marketing. Les benchmarks en cours d'exécution étaient à 4K et avaient probablement RTX activé, ce qui pourrait donner l'impression que l'écart est plus grand qu'il ne le sera dans les jeux purement rastérisés, car la série 3000 basée sur Ampère fonctionnera deux fois plus bien au traçage de rayons que Turing. Mais, le traçage de rayons étant maintenant quelque chose qui ne nuit pas beaucoup aux performances et étant pris en charge par la dernière génération de consoles, c'est un argument de vente majeur pour le faire fonctionner aussi vite que le produit phare de la dernière génération pour près d'un tiers du prix.

On ne sait pas non plus si le prix restera ainsi. Les conceptions tierces ajoutent régulièrement au moins 50 USD au prix, et compte tenu de la forte demande, il ne sera pas surprenant de le voir se vendre 600 USD en octobre 2020.

Juste au-dessus se trouve le RTX 3080 à 699 $, ce qui devrait être deux fois plus rapide que le RTX 2080, et arriver environ 25 à 30% plus rapide que le 3080.

Ensuite, dans le haut de gamme, le nouveau produit phare est le RTX 3090, qui est comiquement énorme. NVIDIA en est bien conscient et l'appelle «BFGPU», ce qui, selon l'entreprise, signifie «Big Ferocious GPU».

NVIDIA n'a montré aucune mesure de performance directe, mais la société a montré qu'elle exécutait des jeux 8K à 60 FPS, ce qui est vraiment impressionnant. Certes, NVIDIA utilise presque certainement DLSS pour atteindre cet objectif, mais le jeu 8K est un jeu 8K.

Bien sûr, il y aura éventuellement une 3060 et d'autres variantes de cartes plus axées sur le budget, mais celles-ci arrivent généralement plus tard.

Pour refroidir réellement les choses, NVIDIA avait besoin d'un design de refroidisseur repensé. Le 3080 est évalué à 320 watts, ce qui est assez élevé, donc NVIDIA a opté pour une conception à double ventilateur, mais au lieu des deux ventilateurs vwinf placés en bas, NVIDIA a placé un ventilateur sur l'extrémité supérieure où la plaque arrière va habituellement. Le ventilateur dirige l'air vers le haut vers le refroidisseur du processeur et le haut du boîtier.

À en juger par les performances pouvant être affectées par un mauvais flux d'air dans un boîtier, cela est parfaitement logique. Cependant, le circuit imprimé est très exigu à cause de cela, ce qui affectera probablement les prix de vente des tiers.

DLSS: un avantage logiciel

Le lancer de rayons n'est pas le seul avantage de ces nouvelles cartes. Vraiment, tout cela est un peu un hack – les séries RTX 2000 et 3000 ne le sont pas cette bien meilleur pour faire du lancer de rayons, par rapport aux anciennes générations de cartes. Le traçage de rayons d'une scène complète dans un logiciel 3D comme Blender prend généralement quelques secondes, voire quelques minutes par image, il est donc hors de question de le forcer brutalement en moins de 10 millisecondes.

Bien sûr, il existe un matériel dédié pour exécuter des calculs de rayons, appelés cœurs RT, mais en grande partie, NVIDIA a opté pour une approche différente. NVIDIA a amélioré les algorithmes de débruitage, qui permettent aux GPU de restituer une passe unique très bon marché qui semble terrible, et d'une manière ou d'une autre – grâce à la magie de l'IA – en faire quelque chose qu'un joueur veut regarder. Lorsqu'il est combiné avec des techniques traditionnelles basées sur la rastérisation, il offre une expérience agréable renforcée par des effets de lancer de rayons.

Cependant, pour faire cela rapidement, NVIDIA a ajouté des cœurs de traitement spécifiques à l'IA appelés cœurs Tensor. Ceux-ci traitent tous les calculs nécessaires pour exécuter des modèles d'apprentissage automatique et le font très rapidement. Ils changent totalement la donne pour l'IA dans l'espace des serveurs cloud, car l'IA est largement utilisée par de nombreuses entreprises.

Au-delà du débruitage, l'utilisation principale des cœurs Tensor pour les joueurs est appelée DLSS, ou super échantillonnage d'apprentissage en profondeur. Il prend un cadre de mauvaise qualité et le met à l'échelle en qualité native complète. Cela signifie essentiellement que vous pouvez jouer avec des fréquences d'images de niveau 1080p, tout en regardant une image 4K.

Cela aide également un peu les performances de lancer de rayons – les tests de performance de PCMag montrent un RTX 2080 Super en cours d'exécution Contrôle de qualité ultra, avec tous les paramètres de lancer de rayons réglés au maximum. À 4K, il se débat avec seulement 19 FPS, mais avec DLSS activé, il obtient un bien meilleur 54 FPS. DLSS est une performance gratuite pour NVIDIA, rendue possible par les cœurs Tensor sur Turing et Ampère. Tout jeu qui le prend en charge et est limité par le GPU peut voir de sérieuses accélérations uniquement à partir du logiciel.

DLSS n’est pas nouveau et a été annoncé comme une fonctionnalité lors du lancement de la série RTX 2000 il y a deux ans. À l'époque, il était pris en charge par très peu de jeux, car il fallait que NVIDIA entraîne et optimise un modèle d'apprentissage automatique pour chaque jeu individuel.

Cependant, à cette époque, NVIDIA l'a complètement réécrit, appelant la nouvelle version DLSS 2.0. C'est une API à usage général, ce qui signifie que tout développeur peut la mettre en œuvre, et elle est déjà reprise par la plupart des versions majeures. Plutôt que de travailler sur une image, il prend des données vectorielles de mouvement de l'image précédente, de la même manière que TAA. Le résultat est beaucoup plus net que DLSS 1.0 et, dans certains cas, semble en fait mieux et plus nette que la résolution native, il n’ya donc pas beaucoup de raisons de ne pas l’activer.

Il y a un problème: lorsque vous changez entièrement de scène, comme dans les cinématiques, DLSS 2.0 doit rendre la toute première image avec une qualité de 50% en attendant les données vectorielles de mouvement. Cela peut entraîner une légère baisse de qualité pendant quelques millisecondes. Mais 99% de tout ce que vous regardez sera rendu correctement, et la plupart des gens ne le remarquent pas dans la pratique.

Architecture ampère: conçue pour l'IA

Ampère est rapide. Sérieusement rapide, en particulier pour les calculs d'IA. Le cœur RT est 1,7 fois plus rapide que Turing, et le nouveau cœur Tensor est 2,7 fois plus rapide que Turing. La combinaison des deux est un véritable saut générationnel dans les performances de lancer de rayons.

Plus tôt en mai, NVIDIA a lancé le GPU Ampere A100, un GPU de centre de données conçu pour exécuter l'IA. Avec lui, ils ont détaillé beaucoup de ce qui rend Ampere tellement plus rapide. Pour les charges de travail de centre de données et de calcul haute performance, Ampère est en général environ 1,7 fois plus rapide que Turing. Pour la formation à l'IA, c'est jusqu'à 6 fois plus rapide.

NVIDIA

Avec Ampère, NVIDIA utilise un nouveau format de nombre conçu pour remplacer le «Floating-Point 32», ou FP32, standard de l'industrie, dans certaines charges de travail. Sous le capot, chaque nombre que votre ordinateur traite occupe un nombre prédéfini de bits en mémoire, qu'il s'agisse de 8 bits, 16 bits, 32, 64 ou même plus. Les nombres plus importants sont plus difficiles à traiter. Par conséquent, si vous pouvez utiliser une taille plus petite, vous en aurez moins à traiter.

FP32 stocke un nombre décimal de 32 bits et utilise 8 bits pour la plage du nombre (quelle que soit sa taille) et 23 bits pour la précision. L’affirmation de NVIDIA est que ces 23 bits de précision ne sont pas entièrement nécessaires pour de nombreuses charges de travail d’IA, et que vous pouvez obtenir des résultats similaires et des performances bien meilleures avec seulement 10 d’entre eux. Réduire la taille à seulement 19 bits, au lieu de 32, fait une grande différence dans de nombreux calculs.

Ce nouveau format s'appelle Tensor Float 32, et les cœurs Tensor de l'A100 sont optimisés pour gérer le format de taille étrange. C'est, en plus de la réduction des matrices et de l'augmentation du nombre de cœurs, comment ils obtiennent l'accélération massive 6x dans la formation à l'IA.

En plus du nouveau format de nombre, Ampère voit des accélérations de performances majeures dans des calculs spécifiques, comme FP32 et FP64. Ceux-ci ne se traduisent pas directement par plus de FPS pour le profane, mais ils font partie de ce qui le rend presque trois fois plus rapide dans l'ensemble des opérations Tensor.

Ensuite, pour accélérer encore les calculs, ils ont introduit le concept de parcimonie structurée à grain fin, qui est un mot très sophistiqué pour un concept assez simple. Les réseaux de neurones fonctionnent avec de grandes listes de nombres, appelées poids, qui affectent la sortie finale. Plus il y a de nombres à traiter, plus ce sera lent.

Cependant, tous ces chiffres ne sont pas réellement utiles. Certains d'entre eux ne sont littéralement que zéro et peuvent essentiellement être rejetés, ce qui entraîne des accélérations massives lorsque vous pouvez calculer plus de chiffres en même temps. La rareté comprime essentiellement les nombres, ce qui demande moins d'effort pour faire des calculs. Le nouveau «Sparse Tensor Core» est conçu pour fonctionner sur des données compressées.

Malgré les changements, NVIDIA affirme que cela ne devrait pas du tout affecter la précision des modèles entraînés.

Pour les calculs Sparse INT8, l'un des plus petits formats de nombres, les performances maximales d'un seul GPU A100 sont supérieures à 1,25 PetaFLOP, un nombre incroyablement élevé. Bien sûr, ce n’est que lorsqu’il s’agit de trouver un type de nombre spécifique, mais c’est quand même impressionnant.

★★★★★