Le nouveau GPU Ampère de NVIDIA change la donne pour l'intelligence artificielle
Aujourd'hui, NVIDIA a annoncé sa nouvelle architecture Ampère, aux côtés du nouvel A100 sur lequel il fonctionne. C'est une amélioration significative par rapport à Turing, déjà une architecture axée sur l'IA qui alimente les centres de données sur le raytracing haut de gamme et ML dans l'espace graphique grand public.
Si vous voulez un résumé complet de tous les détails très techniques, vous pouvez lire la présentation détaillée de l'architecture de NVIDIA. Nous décomposerons les éléments les plus importants.
La nouvelle matrice est absolument massive
De la porte, ils sortent tous avec cette nouvelle puce. La puce Tesla V100 de la dernière génération était à 815 mm sur le nœud de processus déjà mature de 14 nm de TSMC, avec 21,1 milliards de transistors. Déjà assez gros, mais le A100 fait honte à 826 mm sur les 7 nm de TSMC, un processus beaucoup plus dense et 54,2 milliards de transistors. Impressionnant pour ce nouveau nœud.
Ce nouveau GPU propose 19,5 téraflops de performances FP32, 6 912 cœurs CUDA, 40 Go de mémoire et 1,6 To / s de bande passante mémoire. Dans une charge de travail assez spécifique (INT8 clairsemée), l'A100 se fissure en fait 1 PetaFLOPS de puissance de calcul brute. Bien sûr, c'est sur INT8, mais quand même, la carte est très puissante.
Puis, tout comme le V100, ils ont pris huit de ces GPU et créé un mini-superordinateur qu'ils vendent pour 200 000 $. Vous les verrez probablement arriver bientôt chez des fournisseurs de cloud comme AWS et Google Cloud Platform.
Cependant, contrairement au V100, il ne s'agit pas d'un GPU massif: ce sont en fait 8 GPU distincts qui peuvent être virtualisés et loués seuls pour différentes tâches, ainsi qu'un débit de mémoire 7 fois plus élevé pour démarrer.
Quant à l'utilisation de tous ces transistors, la nouvelle puce fonctionne beaucoup plus rapidement que le V100. Pour la formation et l'inférence de l'IA, A100 offre une accélération 6x pour FP32, 3x pour FP16 et 7x par inférence lors de l'utilisation de tous ces GPU ensemble.
Notez que le V100 marqué dans le deuxième graphique est le serveur 8 GPU V100, pas un seul V100.
NVIDIA promet également une accélération jusqu'à 2x dans de nombreuses charges de travail HPC:
En ce qui concerne les nombres bruts de TFLOP, les performances de double précision du A100 FP64 sont de 20 TFLOP, contre 8 pour le V100 FP64. Dans l'ensemble, ces accélérations sont une véritable amélioration générationnelle par rapport à Turing, et sont d'excellentes nouvelles pour l'IA et l'espace d'apprentissage machine.
TensorFloat-32: un nouveau format numérique optimisé pour les cœurs de tenseurs
Avec Ampere, NVIDIA utilise un nouveau format numérique conçu pour remplacer FP32 dans certaines charges de travail. Essentiellement, FP32 utilise 8 bits pour la plage du nombre (quelle que soit sa taille) et 23 bits pour la précision.
NVIDIA affirme que ces 23 bits de précision ne sont pas entièrement nécessaires pour de nombreuses charges de travail d'IA, et vous pouvez obtenir des résultats similaires et des performances bien meilleures avec seulement 10 d'entre eux. Ce nouveau format est appelé Tensor Float 32, et les noyaux Tensor de l'A100 sont optimisés pour le gérer. C'est, en plus de la diminution des matrices et de l'augmentation du nombre de cœurs, comment ils obtiennent l'accélération massive 6x dans la formation à l'IA.
Ils affirment que "Les utilisateurs n'ont pas à modifier le code, car TF32 ne fonctionne qu'à l'intérieur du GPU A100. TF32 fonctionne sur les entrées FP32 et produit des résultats dans FP32. Les opérations sans tensor continuent à utiliser FP32 ". Cela signifie qu'il devrait y avoir une baisse de remplacement pour les charges de travail qui n'ont pas besoin de précision supplémentaire.
En comparant les performances FP sur le V100 aux performances TF sur l'A100, vous verrez d'où viennent ces accélérations massives. TF32 est jusqu'à dix fois plus rapide. Bien sûr, cela est également dû en grande partie au fait que les autres améliorations d'Ampere sont deux fois plus rapides en général, et ce n'est pas une comparaison directe.
Ils ont également introduit un nouveau concept appelé clarté structurée à grains fins, qui contribue aux performances de calcul des réseaux de neurones profonds. Fondamentalement, certains poids sont moins importants que d'autres, et les calculs matriciels peuvent être compressés pour améliorer le débit. Bien que jeter des données ne semble pas être une bonne idée, ils affirment que cela n'a pas d'impact sur la précision du réseau formé pour l'inférence, et accélère simplement le.
Pour les calculs Sparse INT8, les performances maximales d'un seul A100 sont de 1250 TFLOPS, un nombre incroyablement élevé. Bien sûr, vous aurez du mal à trouver une charge de travail réelle démarrant uniquement INT8, mais les accélérations sont des accélérations.