Agence web » Actualités du digital » Comment fonctionnent les applications d'identification musicale comme Shazam?

Comment fonctionnent les applications d'identification musicale comme Shazam?

Les applications d'identification musicale semblent magiques au début, mais sous le capot se trouve un algorithme sophistiqué qui peut trouver des chansons en un instant. Voici comment ils fonctionnent.

La magie de l'identification musicale

C'est probablement arrivé à nous tous. Vous dînez dans un bon restaurant, sortez dans un café ou vous promenez dans un magasin, lorsque vous entendez soudainement une grande chanson jouer sur les haut-parleurs. C'est peut-être une chanson que vous avez déjà écoutée ou une piste que vous n'avez jamais entendue. Alors, sortez votre téléphone, ouvrez Shazam et tenez votre appareil au plafond. En un éclair, l'application vous indique ce qu'est la chanson, qui est l'artiste et où la diffuser.

Ils sont rapides, remarquablement précis et peuvent identifier même les chansons les plus obscures. En un mot, ils travaillent en isolant la chanson d'un enregistrement et en la recherchant dans une vaste base de données de pistes. Mais la technologie derrière la façon dont ils le font est assez complexe et impressionnante.

Vous pourriez être choqué de savoir que l'application Shazam que nous connaissons aujourd'hui a été lancée en 2002, et le système était tout aussi précis et rapide à l'époque qu'il ne l'est maintenant. Tout cela grâce à un algorithme unique qui révolutionnerait le monde de la musique.

Ce n'est pas seulement les paroles

À première vue, les applications d'identification musicale comme Shazam peuvent sembler simples. Vous pourriez penser qu'ils écoutent simplement les paroles, comme n'importe quel assistant vocal, et les recherchent dans une base de données de paroles de chansons pour vous dire ce qu'est la chanson.

Cependant, la plupart des applications d'identification musicale sont capables de dire quel est le titre d'un instrument, ou même le chanteur d'une chanson de couverture. En effet, au lieu d'analyser les paroles du morceau, ils recherchent des «empreintes digitales» uniques à chaque chanson dans leurs vastes bases de données.

Technologie d'empreinte digitale

Vous avez probablement des appareils qui peuvent être déverrouillés à l'aide de votre empreinte digitale, qui est la disposition des petites lignes de votre doigt qui vous est propre. De même, lorsque vous tenez votre microphone pour enregistrer un bref clip d'une chanson, ce clip se transforme en modèles de données que Shazam ou une autre application peut rechercher dans leur base de données.

À première vue, cette méthode semble sujette à plusieurs problèmes. La plupart du temps, lorsque vous écoutez de la musique en public, des bruits de fond et des distorsions sont causés par les haut-parleurs, ce qui peut rendre les chansons non identifiables ou entraîner des correspondances inexactes. En outre, de nombreuses données sont capturées, même dans un court clip audio, ce qui peut ralentir la recherche de ces modèles dans une base de données de millions de chansons.

Dans une interview accordée à Scientific American en 2003, Avery Li-Chun Wang, responsable des données et cofondateur de Shazam, explique comment leur algorithme résout ces problèmes. Les informations d'un clip audio peuvent être visualisées avec une carte 3D connue sous le nom de spectrogramme, qui représente un changement de fréquences sur une période de temps. Il prend également en compte l'amplitude, qui correspond à la puissance d'un son. Ceci est représenté dans un spectrogramme utilisant l'intensité de la couleur.

De la même manière que les humains ne peuvent pas percevoir le son à moins qu'ils ne soient à une fréquence particulière, au lieu de prendre en compte l'intégralité d'une chanson lors d'une recherche, Shazam ne prend que les «pics», qui est le contenu énergétique le plus élevé dans un clip audio . Les empreintes digitales qu'il capture ne prennent que les points de fréquence les plus élevés dans un laps de temps donné, puis les taches d'amplitude de crête dans ces fréquences.

Dans un document de recherche pour l'Université Columbia, Wang a déclaré que la méthode leur permet de supprimer la plupart des parties inutiles d'un clip audio comme le bruit de fond et d'éliminer la distorsion. Cela rend également la taille des gravures suffisamment petite pour qu'il ne faut que quelques millisecondes pour identifier une chanson dans leur vaste base de données.

L'impact de Shazam

En plus d'être utiles pour les auditeurs moyens qui entendent une chanson qu'ils aiment, les applications d'identification musicale contribuent également à façonner le monde de la musique.

Les stations de radio et les services de streaming utilisent souvent les données concernant ce que les gens Shazam recherchent le plus pour comprendre quelles pistes sont écoutées par le public. Cela est utile, car il indique le caractère accrocheur et la popularité potentielle d'une chanson, quel que soit l'artiste. Lorsque vous identifiez une chanson avec l'application, vous verrez immédiatement combien de personnes ont également essayé de l'identifier.

Depuis la montée en puissance de Shazam, une poignée de concurrents sont également apparus. Soundhound prétend pouvoir identifier une chanson simplement en chantant ou en fredonnant, avec des résultats mitigés. Il existe également un identifiant de morceau intégré à des applications vocales telles que Google Assistant qui fonctionnent de manière très similaire au système de Shazam.

★★★★★