Name: Tremplin Numérique
Price range: $$$

Microsoft a révélé un outil capable de simuler la voix et la parole d’une personne lorsqu’on lui donne seulement trois secondes d’échantillon audio pour le baser.

L’outil VALL-E est un modèle de langage de codec naturel, selon les recherches, et peut être utilisé pour synthétiser la parole. L’idée est d’améliorer les capacités de synthèse vocale et de la rendre un peu plus naturelle.

Accord sur le haut débit avec Virgin Media

Dans le cadre de ses soldes d’hiver, vous pouvez obtenir une moyenne de vitesse de téléchargement de 516 Mbps pour 33 £ par mois auprès de Virgin Media. Le contrat dure 18 mois et il y a des frais d’installation de 9,99 £, mais pour des vitesses aussi élevées, c’est un achat idéal pour les grands ménages.

Médias vierges
Vitesses moyennes de 516 Mbps
33 £/mois

Voir l’offre

Dans un article sur GitHub, Microsoft déclare que même avec un échantillon très limité de discours, l’outil est capable de maintenir l’authenticité et l’émotion dans la voix.

Que l’orateur soit en colère, amusé, dégoûté ou endormi, VALL-E peut maintenir l’émotion lorsqu’il simule la voix. Ce n’est pas encore parfait, loin de là, et semble avoir des problèmes avec certains des accents les plus forts, mais dans l’ensemble, c’est assez impressionnant pour une preuve de concept.

L’entreprise a formé l’outil à l’aide de la technologie créée par Meta. L’outil LibriLight dispose de 60 000 heures de discours en anglais de 7 000 locuteurs. Meta a créé la technologie pour tenter de combler les lacunes des appels audio lorsque le signal est faible, mais Microsoft a d’autres objectifs en tête.

Présentation de VALL-E — Crédit image : Microsoft

Comme pour tout ce qui concerne l’IA, il y aura des craintes que la technologie ne soit utilisée à mauvais escient pour donner l’impression que quelqu’un a dit quelque chose qu’il n’a pas dit. C’est quelque chose que nous avons déjà expérimenté avec les deepfakes vidéo.

Cependant, si la technologie est utilisée pour les bonnes raisons, elle pourrait aider les personnes qui ont perdu la voix à communiquer à nouveau avec les autres dans leur propre discours.

Vous ne pouvez pas encore l’essayer par vous-même, mais Microsoft a publié de nombreux échantillons (via Ars Technica) présentant la technologie.

Dans un article expliquant les essais, Microsoft déclare: «VALL-E émerge des capacités d’apprentissage en contexte et peut être utilisé pour synthétiser un discours personnalisé de haute qualité avec seulement un enregistrement inscrit de 3 secondes d’un locuteur invisible comme invite acoustique. Les résultats des expériences montrent que VALL-E surpasse de manière significative le système TTS zéro-shot de pointe en termes de naturel de la parole et de similarité des locuteurs. De plus, nous constatons que VALL-E pourrait préserver l’émotion de l’orateur et l’environnement acoustique de l’invite acoustique en synthèse.