Comment extraire le journal d'erreurs NVMe brut de votre SSD avec smartctl
Agence web » Actualités du digital » Comment extraire le journal d'erreurs NVMe brut de votre SSD avec smartctl

Comment extraire le journal d'erreurs NVMe brut de votre SSD avec smartctl

La santé des SSD peut être une mesure déroutante, et de nombreuses personnes font référence à des choses totalement différentes lorsqu'elles en discutent. Mais saviez-vous que votre SSD NVMe dispose d'un véritable journal d'erreurs à l'intérieur du contrôleur, et qu'il est beaucoup plus informatif que les vagues avertissements avec lesquels votre système d'exploitation pourrait parfois vous surprendre ?

Si vous apprenez à consulter et à lire ce journal, vous serez en mesure de faire la différence entre un hoquet inoffensif et une panne de disque imminente.

Les SSD NVMe ont de vrais journaux d'erreurs, et non, ce n'est pas la même chose que SMART

Cela pourrait vous aider à comprendre ce qui ne va pas avec votre lecteur

Les SSD sont fantastiques, mais de nombreux problèmes peuvent survenir avec eux. Ils n’aiment pas rester seuls pendant des heures, débranchés. Ils peuvent disparaître au hasard et vous envoyer à la poursuite de l’oie sauvage. Et ils peuvent également échouer avec 100 % de santé.

Bien que toutes ces choses soient vraies, une autre chose l'est également : les SSD conservent des journaux d'erreurs méticuleux qui peuvent être utiles lorsque vous devez diagnostiquer un disque défaillant, ou même si vous voulez simplement que quelque chose vous dise que tout va bien en ce moment.

Le problème est qu’il est peu probable que votre système d’exploitation vous montre ce journal de manière aléatoire. Vous devrez aller le chercher, puis apprendre à lui donner un sens.

Les avertissements au niveau du système d’exploitation ne sont souvent que des symptômes. Délais d'attente, réinitialisations, alertes génériques « Le disque présente un problème », etc. Le journal des erreurs du contrôleur en garde une trace, et vous pouvez parfois voir ce qui s'est réellement passé au-delà de la nature vague des alertes Windows.

Ce n’est cependant pas la même chose que SMART. Les trackers de santé SMART sont principalement des compteurs et des indicateurs d'usure. Je les aime et les utilise religieusement, mais ils ne représentent qu'une petite partie de l'entretien et de la maintenance appropriés des SSD. Le journal des erreurs NVMe est un pas de plus vers un enregistrement des pannes et des événements récents, ce qui peut lui donner une vue plus complète de l'état de votre SSD.

Le trouver n'est pas si difficile

Il faut juste creuser un peu

Alors, où trouve-t-on ce mythique journal d’erreurs NVMe ? Il existe plusieurs façons.

Sous Windows, la solution la plus simple est Smartmontools. Il s'agit d'un ensemble d'outils de diagnostic de disque gratuit, open source et largement utilisé, capable de lire les données et les journaux de santé SSD/NVMe. Il est disponible sur Windows, Linux et macOS. C'est le chaînon manquant entre vous et le contrôleur NVMe. Windows peut vous dire qu'un lecteur fonctionne bien et ne vous montre toujours pas le propre journal d'erreurs du contrôleur. Vous utilisez donc smartctl (qui fait partie de Smartmontools) spécifiquement lorsque vous souhaitez extraire ce journal NVMe caché et voir ce que le lecteur lui-même a enregistré.

Première étape : installer l'outil. Ensuite, ouvrez PowerShell en tant qu'administrateur (sous Windows), exécutez la commande :

smartctl --scan-open

Cela permet de trouver le nom de périphérique correct (sous Windows, il ressemble généralement à \.PHYSICALDRIVE1 ou \.nvme0). Ensuite, exécutez :

smartctl -l error \.PHYSICALDRIVE1

Cela imprime le journal des informations sur les erreurs NVMe (n'oubliez pas de le remplacer par le nom de l'analyse). Et enfin, pour un contexte plus large, exécutez :

smartctl -a \.PHYSICALDRIVE1

Cela inclura des compteurs de santé NVMe, ce qui peut aider à décider entre une erreur ponctuelle et un modèle plus important.

Une remarque pratique : si votre lecteur NVMe se trouve derrière un boîtier USB ou certaines couches RAID, smartctl risque de ne pas pouvoir transmettre les commandes d'administration NVMe. Dans ce cas, le journal est toujours là ; vous avez juste besoin du lecteur sur un emplacement M.2 direct (ou utilisez une pile prenant en charge le relais NVMe) pour le lire.

Comment lire une entrée d'erreur NVMe sans deviner

Tout est structuré et potentiellement important

Lorsque vous accédez au journal des informations sur les erreurs NVMe, vous verrez généralement la même poignée de champs répétés dans les entrées : ErrCount, SQId, CmdId, Statut, PELoc, LBA, et IDN. Comprendre tout cela peut sembler fastidieux, alors décomposons-le un peu.

Commencez par Status, car il vous indique exactement le type d’erreur que le contrôleur pense avoir enregistré. Les autres colonnes vous permettront de savoir si cela est lié à une véritable commande d'E/S ou simplement à un bruit de fond.

ErrCount est en quelque sorte un fil d'Ariane. Il s'agit d'un identifiant unique et incrémentiel pour chaque événement enregistré, et votre système doit le conserver lors des cycles d'alimentation, donc un saut dans ErrCount signifie simplement que de nouvelles entrées ont été créées. Aucune nouvelle là-bas.

Pendant ce temps, SQId et CmdId vous indiquent si l’erreur correspond à une file d’attente/ID de commandes spécifique. S'ils sont définis sur « non applicable », cela peut être quelque chose de générique ou asynchrone, ne pointant pas vers une écriture de fichier spécifique qui a échoué.

Ensuite, passez à PELoc (Parameter Error Location). Il s’agit d’un autre fil d’Ariane au lieu d’un diagnostic complet. Si l'état ressemble à un problème de commande ou de paramètre, PELoc est essentiellement le contrôleur pointant vers l'octet et le bit où il n'aime pas ce qu'il a été envoyé.

Enfin, LBA et NSID. Pour de nombreux types d'erreurs (en particulier les problèmes de commande côté hôte ou d'administration), le champ LBA sera simplement nul car l'erreur n'était pas liée à un bloc de données spécifique. Si vous avez besoin de savoir quel bloc exact a échoué, recherchez les réponses dans le journal d'auto-test du périphérique et ses données LBA défaillantes, puis corrélez-les avec vos compteurs d'intégrité tels que les erreurs d'intégrité des médias et des données.

De quels avertissements devez-vous vraiment vous soucier ?

Ce n'est pas parce qu'il y a un avertissement que c'est un désastre

La recherche d'erreurs dans le journal des erreurs n'est pas une sorte de « passer en mode panique » automatique. (Je dis cela uniquement parce que c'est généralement ma réaction, même après quelques décennies passées à gérer mes propres PC.)

Traitez-le davantage comme un avertissement. Cela dit, certains statuts doivent absolument être pris au sérieux. Si vous voyez des états de style d'intégrité des médias et des données, tels que Défaut d'écriture ou Erreur de lecture non récupérée, cela signifie que le contrôleur vous indique qu'il n'a pas pu valider les données dans NAND ou qu'il n'a pas pu en récupérer les données. Et ce n’est malheureusement jamais une bonne nouvelle.

D’un autre côté, de nombreuses erreurs qui semblent effrayantes ne sont que du bruit provenant du côté hôte. Les pilotes et les outils de surveillance essaient parfois des commandes facultatives ou non prises en charge. Votre SSD peut enregistrer cela comme une erreur même si rien de grave ne s'est réellement produit ; c'était juste quelque chose d'inconnu ou d'inhabituel. Pourtant, mieux vaut prévenir que guérir, n'est-ce pas ?


Recherchez des modèles, puis agissez

Ce qui compte vraiment, c’est le modèle, s’il existe. Les mêmes erreurs apparaissent-elles de temps en temps ? Est-ce qu'ils s'alignent avec des gels, des réinitialisations et d'autres signes inquiétants ? Vos compteurs de santé évoluent-ils à leur rythme ?

Si oui, cela pourrait signifier qu'il est temps de commencer à réfléchir plus sérieusement à l'achat d'un nouveau SSD ou au moins à suivre la règle 3-2-1 pour les sauvegardes. La perte de données peut survenir, mais si vous êtes préparé, ce ne sera guère plus qu'une nuisance.

7/10

Capacité de stockage

1 To, 2 To, 4 To, 8 To

Interface matérielle

M.2 NVMe

Le Samsung 9100 Pro est l'un des meilleurs SSD actuellement disponibles. Ce n'est pas bon marché, mais la plupart des SSD ne le sont pas – au moins, ils sont dignes de confiance pour le prix.

★★★★★