Comment fonctionne la compression audio et pourquoi elle peut affecter la qualité de votre musique
Sommaire
Points clés à retenir
-
Le théorème de Nyquist est le fondement de l'audio, dictant les taux d'échantillonnage numériques pour une qualité optimale.
-
La compression avec perte sacrifie les détails audio au profit de la taille du fichier, supprimant ainsi la richesse harmonique et la réverbération.
-
Une mauvaise compression entraîne des distorsions audio notables telles que des écrêtages, des sons métalliques et une perte de dynamique.
Vous avez peut-être entendu dire que votre musique est « compressée » et que si elle était moins compressée, voire non compressée, elle sonnerait bien mieux. Cependant, si vous savez ce qu'est la compression et comment elle fonctionne, vous n'êtes peut-être pas si pressé d'« élargir » vos horizons musicaux.
Rencontrez M. Nyquist
Avant d'entrer dans le vif du sujet, il est important de parler du théorème d'échantillonnage de Whittaker-Nyquist-Shannon car il est basé sur les travaux de Harry Nyquist, Claude Shannon et (dès 1915) ET Whitaker. Nyquist est cependant le partisan le plus connu du théorème, c'est pourquoi vous le verrez souvent simplement appelé le théorème de Nyquist.
Crédit mis à part, le théorème de Nyquist est le fondement de l’audio numérique. Il indique que pour représenter numériquement un son, vous devez l'échantillonner au moins deux fois la fréquence la plus élevée du son. Par exemple, les CD échantillonnent l'audio à 44,1 kHz, capturant des fréquences allant jusqu'à 22,05 kHz, juste au-delà de la plage supérieure de l'audition humaine.
L'échantillonnage peut être considéré comme la forme de base de la compression audio numérique. Après tout, vous pouvez augmenter la fréquence d'échantillonnage et techniquement avoir un enregistrement plus précis du son analogique d'origine, mais la taille de vos fichiers augmentera de façon exponentielle. Augmenter votre précision au-delà de ce que les oreilles humaines peuvent percevoir ne vaut pas l'espace de stockage requis, et vous disposez donc d'une base sur l'espace qu'un enregistrement audio doit utiliser au maximum.
Bien sûr, de nos jours, les offres audio de meilleure qualité vont au-delà de la qualité CD avec des fréquences telles que 48 KHz, mais le point des rendements décroissants est relativement clair.
La compression avec perte réduit la graisse audio
La compression audio se décline en deux versions : avec et sans perte. La compression sans perte (comme FLAC) conserve chaque bit des données originales mais donne lieu à des fichiers plus gros, environ la moitié de la taille d'un enregistrement audio sur CD.
La compression avec perte (comme MP3 ou AAC) supprime les données « inutiles » pour économiser de l'espace, sur la base de modèles psychoacoustiques de l'audition humaine. Ces modèles supposent que nous ne remarquerons pas certains sons masqués par des sons plus forts ou des fréquences situées en marge de la plage auditive humaine typique.
Cette approche n’est cependant pas parfaite. Si la compression avec perte supprime les données audio redondantes, elle peut également supprimer des détails subtils, tels que la réverbération d'une pièce ou la richesse harmonique des instruments. Il en résulte ce que certains audiophiles pourraient décrire comme un son « plat » ou « sans vie », en particulier à de faibles débits comme 128 kbps.
La fréquence d'échantillonnage et la profondeur de bits sont les plus importantes
La compression n'est pas le seul facteur qui affecte la qualité ; la fréquence d'échantillonnage et la profondeur de bits d'origine sont tout aussi critiques.
Comme je l'ai mentionné ci-dessus, la fréquence d'échantillonnage correspond à la fréquence à laquelle le son est mesuré par seconde. Des fréquences d'échantillonnage plus élevées (par exemple, 96 kHz) capturent plus de détails mais nécessitent plus de stockage.
La profondeur de bits définit la plage dynamique, c'est-à-dire la différence entre les sons les plus forts et les plus faibles. Une profondeur de bits plus élevée, comme l'audio 24 bits, préserve plus de nuances que la norme 16 bits des CD.
Lorsque l'audio est compressé dans des formats avec perte, sa fréquence d'échantillonnage et sa profondeur de bits sont souvent réduites, ce qui peut éliminer les détails d'arrière-plan discrets et donner lieu à une texture « dure » ou « granuleuse ».
Bien sûr, avec un stockage moins cher, des processeurs plus puissants et de meilleurs algorithmes de compression qui font varier le débit binaire en fonction des besoins de la musique à un moment donné, la qualité originale de la musique peut être presque entièrement préservée. Tout en utilisant seulement une fraction de l’espace de stockage de quelque chose comme FLAC.
Vous pouvez facilement entendre une mauvaise compression
Même si vous n'êtes pas audiophile, une mauvaise compression peut être perceptible. Les « artefacts » audio courants comprennent :
- Coupure: Les sons forts sont déformés ou coupés.
- Son métallique: Une qualité « grêle » due à une compression trop agressive.
- Perte de dynamique : La musique sonne plate et manque d'impact.
- Écho ou gazouillis: Distorsions subtiles du chant ou des notes soutenues, similaires à « wow » ou « flutter » sur les disques vinyles et les cassettes.
Vous voulez l’entendre par vous-même ? Comparez un MP3 à haut débit (par exemple 320 kbps) à une version à faible débit (par exemple 128 kbps). La différence est frappante, surtout avec une musique complexe comme les enregistrements orchestraux ou live.
Cependant, passer rapidement à des débits binaires plus élevés semble identique, ce qui signifie qu'il existe un point idéal, 320 kbps étant un bon exemple pour le MP3 en particulier.