Comment surveiller la température du GPU de votre ordinateur
Agence web » Actualités du digital » Les GPU s’usent-ils suite à une utilisation intensive ?

Les GPU s’usent-ils suite à une utilisation intensive ?

Si vous prévoyez de faire des jeux intensifs, du calcul GPU, du rendu graphique, du Folding@home ou de l’extraction de crypto sur votre carte graphique, vous craignez peut-être que votre GPU ne s’use à cause d’une utilisation intensive. Mais le fera-t-il ? Nous enquêterons.

Oui, mais c’est compliqué

La plupart des informations sur la durée de vie des cartes graphiques que vous trouverez en ligne sont anecdotiques, avec des chiffres qui peuvent varier considérablement selon la personne à qui vous demandez. Avec des centaines de modèles différents de cartes graphiques sortis au cours de la dernière décennie, il est difficile de résumer des données sur des cartes aussi différentes en de simples généralisations.

Jusqu’à présent, nous savons ceci : selon un rapport de 2020 d’un détaillant allemand, les cartes graphiques les plus récentes ont un taux d’échec d’environ 2 à 5 % (mesuré en retours au détaillant) dans l’ensemble. Et en 2021, Nvidia fournissait toujours des mises à jour de pilotes pour les cartes qui avaient environ 9 à 10 ans (comme la série GTX 600), vous pouvez donc vous attendre à une décennie d’utilisation d’une carte GPU bien traitée, bien que celles-ci puissent être valeurs aberrantes, comme nous le verrons plus loin.

Indépendamment des chiffres, il y a une physique difficile à l’œuvre. Les matériaux et composants entrant dans la composition des cartes GPU ne sont pas magiques : plus vous les utilisez, plus les pièces se dégradent rapidement et plus elles risquent de tomber complètement en panne. Une utilisation intensive affecte donc la durée de vie.

Plusieurs cartes GPU dans un crypto-mineur.

Que vous voyiez une panne dans votre carte GPU dépend de variables extrêmement différentes, y compris la quantité exacte d’utilisation du GPU, la nature et le degré des variations de température dans les circuits, le nombre de fois que la carte a été allumée et éteinte, et la propreté de l’environnement d’exploitation.

Parce qu’une carte GPU est un appareil complexe avec de nombreuses pièces, chacune peut tomber en panne ou se dégrader de différentes manières. Nous allons passer en revue plusieurs parties principales d’une carte GPU et examiner comment elles pourraient s’user suite à une utilisation intensive au fil du temps.

Premier à partir : les ventilateurs de refroidissement

Parmi toutes les pièces d’une carte graphique susceptibles de tomber en panne en premier, nous devons signaler les ventilateurs de refroidissement (ou ventilateur), qui sont des pièces physiques mobiles. Les ventilateurs maintiennent votre GPU au frais en éloignant l’air chaud de la puce GPU (avec un dissipateur de chaleur) afin qu’il puisse continuer à fonctionner.

Une carte GPU avec des ventilateurs rotatifs.

Pourquoi la chaleur est-elle mauvaise ? Avec suffisamment de chaleur, les transistors ne fonctionnent pas correctement, ce qui signifie que la carte GPU ne fonctionnera pas. Avec encore plus de chaleur, les transistors des puces de la carte peuvent être endommagés de façon permanente.

Au fil du temps, les ventilateurs de refroidissement se bouchent souvent avec de la poussière, ce qui réduit leur capacité à déplacer l’air efficacement. Ou les ventilateurs peuvent échouer complètement si un lubrifiant interne tombe en panne. L’un ou l’autre scénario augmentera la température du GPU.

Chaque GPU se protège de la surchauffe en utilisant l’étranglement thermique, qui ralentit le fonctionnement du GPU pour abaisser la température de fonctionnement. Cela limite considérablement les performances. Donc, si vous avez un GPU qui est soudainement plus bruyant que d’habitude (le ventilateur tourne plus vite) ou qui fonctionne moins bien, nettoyez soigneusement les ventilateurs de refroidissement et le dissipateur thermique de votre GPU avec de l’air comprimé.

Si un ventilateur de refroidissement GPU est complètement tombé en panne, vous pouvez généralement le remplacer si vous pouvez trouver un ventilateur équivalent auprès d’un fournisseur de pièces d’ordinateur.

EN RELATION: Comment nettoyer soigneusement votre ordinateur de bureau sale

Un autre suspect : un composé thermique défectueux

Entre chaque dissipateur thermique et la puce GPU, il y a une couche de matériau conducteur thermique, comme un tampon de mastic ou de pâte qui aide à transférer la chaleur de la puce GPU vers le dissipateur thermique.

Au fil du temps, la pâte thermique peut se fissurer ou perdre de sa puissance. Lorsque cela se produit, le dissipateur thermique ne refroidit pas aussi efficacement et la température du GPU augmente. Comme nous l’avons vu dans la section sur les ventilateurs ci-dessus, les températures élevées du GPU entraînent une limitation thermique, ce qui ralentira votre GPU.

La meilleure solution dans ce scénario consiste à remplacer vous-même la pâte thermique. Vous pouvez acheter de la pâte thermique auprès de vendeurs de pièces d’ordinateur.

Échecs dans d’autres composants, soudure

Outre la puce GPU, une carte graphique comprendra des dizaines d’autres composants électroniques tels que des condensateurs, des résistances, des puces mémoire, etc. N’importe lequel de ceux-ci pourrait potentiellement échouer en cas d’utilisation intensive ou d’exposition à trop de chaleur. Certains sont plus susceptibles d’échouer que d’autres.

Une photo de condensateurs posés sur un circuit imprimé.

Les condensateurs en particulier sont susceptibles de tomber en panne avec le temps. Ils sont sensibles aux changements de température fréquents et certains sont défectueux lors de leur première production. Si vous êtes assez pratique pour résoudre les problèmes de condensateur, vous pouvez potentiellement remplacer les mauvais condensateurs sur une carte GPU si vous pouvez trouver des pièces de rechange équivalentes.

De plus, la soudure qui lie les puces et les composants à la carte de circuit imprimé de votre carte GPU peut vieillir et se fissurer avec le temps en raison de changements de température fréquents, d’une manipulation physique brutale, d’un stockage inapproprié ou d’un fonctionnement trop chaud. Alors oui, une utilisation intensive du GPU pourrait augmenter les risques de défaillance des joints de soudure. Réparer les mauvais joints de soudure peut être techniquement difficile, mais ce n’est pas impossible.

Échecs dans la puce GPU elle-même

La question demeure donc : une puce GPU peut-elle éventuellement s’user suite à une utilisation intensive ? La réponse est oui, théoriquement, dans des circonstances extrêmes. Mais vous verrez probablement la défaillance d’un autre composant de la carte graphique bien avant cette date.

La puce GPU de votre carte graphique contient des millions ou des milliards de transistors, gravés dans un morceau de silicium. Les transistors vieillissent avec le temps, affectant leurs performances. Lorsque suffisamment de transistors se comportent mal, la puce tombe en panne.

Selon Semiconductor Engineering, il existe plusieurs raisons majeures pour lesquelles les transistors fonctionnent mal au fil du temps à cause du vieillissement (dont l’une est la chaleur), et les erreurs sont d’autant plus probables que la taille de la fonctionnalité sur la puce est petite. Les experts soupçonnent que les puces informatiques fabriquées aujourd’hui ne dureront pas aussi longtemps que les puces fabriquées dans les années 1990, mais prédire une durée de vie exacte est encore une conjecture puisque la technologie est si nouvelle.

Une illustration d'une puce GPU.

Actuellement, NVIDIA ne publie pas d’estimations MTBF (temps moyen entre pannes) pour ses cartes graphiques grand public, mais la société les publie pour certains de ses accélérateurs graphiques industriels et commerciaux. Par exemple, la fiche technique de l’accélérateur GPU Tesla K20X cite le MTBF de la carte (à une température de 35 C/95 F) comme étant de 14,7 ans pour un « environnement non contrôlé » et de 23,8 ans pour un « environnement contrôlé ». (Notez que, généralement, le matériel graphique industriel devrait être plus robuste et mieux résister à une utilisation intensive que le matériel graphique grand public.)

Fait intéressant, nous pouvons comparer ce nombre théorique avec des données concrètes provenant du terrain. L’une des rares études empiriques sur la durée de vie du GPU provient d’un article de 2020 intitulé « GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability » rédigé par Oak Ridge National Labs. L’article rend compte de la fiabilité des 18 688 cartes GPU Nvidia K20X Kepler utilisées dans le supercalculateur Cray XK7 Titan, désormais à la retraite, sur une période de près de 7 ans (2012-2019).

Le supercalculateur Cray XK7 Titan

Après quelques ratés initiaux dus à des problèmes de connexion, ils ont trouvé une fiabilité relativement élevée avec les cartes graphiques du XK7 jusqu’en 2016 (environ 3-4 ans), lorsque beaucoup ont commencé à tomber en panne. Mais devinez quoi ? Ils ont attribué la plupart des défaillances du premier lot de cartes (avant le remplacement) à une résistance défectueuse sur le circuit imprimé de la carte graphique, et non à la puce GPU elle-même. Dans l’ensemble, les auteurs de l’étude ont constaté que le MTBF moyen des cartes GPU très utilisées du K20X était d’environ 3 ans (et non de 14 à 23 ans, comme indiqué dans la fiche technique de Nvidia), certaines des cartes les plus chaudes du cœur échouant en premier. Ils ont conclu que « la fiabilité du GPU dépend de la dissipation thermique ».

Il y a donc de fortes chances que si vous utilisez votre carte graphique aussi intensément que l’un des plus grands supercalculateurs du monde (à l’époque), elle s’usera plus rapidement, et que d’autres composants tels que les ventilateurs et les résistances tomberont en panne bien avant la puce GPU elle-même. . La durée exacte que vous obtiendrez dépend de facteurs que nous ne pouvons pas prédire.

En fin de compte, la chaleur est l’ennemi

En fin de compte, d’après toutes les sources que nous avons lues, le facteur décisif le plus important pour la durée de vie d’une carte GPU est sa température de fonctionnement. Plus la carte est chaude, plus tous ses composants se dégradent rapidement. De plus, plus la carte est chaude, plus ses performances diminuent pour éviter une panne catastrophique. Un bon refroidissement prolonge la durée de vie de votre carte et augmente ses performances.

Donc, que vous exploitiez de la crypto ou que vous jouiez, si vous gardez votre carte GPU raisonnablement froide avec des ventilateurs propres et fonctionnels et une pâte thermique efficace, vous aurez probablement une carte très performante qui, si vous avez de la chance, pourrait durer jusqu’à ce qu’elle devient obsolète et vous mettez à niveau.

Si vous envisagez d’acheter un GPU d’occasion, vous devez absolument prendre en compte son historique, y compris la façon dont son propriétaire l’a traité et utilisé. Les cartes les plus utilisées (qui fonctionnent maintenant) fonctionneront probablement bien à court terme, mais sont plus sujettes à l’échec à long terme. Nous ne pouvons pas chiffrer exactement la durée de vie d’une carte, mais une utilisation intensive use définitivement les cartes graphiques plus rapidement.

Bonne chance!

EN RELATION: Est-il sûr d’acheter des GPU d’occasion auprès de mineurs de crypto-monnaie ?

★★★★★