Name: Tremplin Numérique
Price range: $$$

Les deepfakes vidéo signifient que vous ne pouvez pas faire confiance à tout ce que vous voyez. Désormais, les deepfakes audio peuvent signifier que vous ne pouvez plus faire confiance à vos oreilles. Est-ce vraiment le président qui a déclaré la guerre au Canada? Est-ce vraiment ton père au téléphone qui demande son mot de passe de courriel?

Ajoutez une autre inquiétude existentielle à la liste de la façon dont notre propre orgueil pourrait inévitablement nous détruire. À l'époque Reagan, les seuls risques technologiques réels étaient la menace d'une guerre nucléaire, chimique et biologique.

Au cours des années suivantes, nous avons eu l’opportunité de devenir obsédés par la glu grise des nanotechnologies et les pandémies mondiales. Maintenant, nous avons des deepfakes – des gens qui perdent le contrôle de leur ressemblance ou de leur voix.

Sommaire

Qu'est-ce qu'un Deepfake audio?

La plupart d'entre nous ont vu une vidéo deepfake, dans laquelle des algorithmes d'apprentissage en profondeur sont utilisés pour remplacer une personne par la ressemblance de quelqu'un d'autre. Les meilleurs sont incroyablement réalistes, et c'est maintenant au tour de l'audio. Un deepfake audio se produit lorsqu'une voix «clonée» qui est potentiellement indiscernable de celle de la personne réelle est utilisée pour produire un son synthétique.

«C’est comme Photoshop pour la voix», a déclaré Zohaib Ahmed, PDG de Resemble AI, à propos de la technologie de clonage de voix de son entreprise.

Cependant, les mauvais travaux Photoshop sont facilement démystifiés. Une entreprise de sécurité avec laquelle nous avons parlé a déclaré que les gens ne devinaient généralement que si un deepfake audio est réel ou faux avec une précision d'environ 57% – pas mieux qu'un tirage au sort.

De plus, comme de nombreux enregistrements vocaux sont des appels téléphoniques de mauvaise qualité (ou enregistrés dans des endroits bruyants), les deepfakes audio peuvent être rendus encore plus indiscernables. Plus la qualité du son est mauvaise, plus il est difficile de capter ces signes révélateurs qu’une voix n’est pas réelle.

Mais pourquoi quelqu'un aurait-il besoin d'un Photoshop pour les voix, de toute façon?

Le cas convaincant pour l'audio synthétique

Il y a en fait une énorme demande d'audio synthétique. Selon Ahmed, «le retour sur investissement est très immédiat».

Cela est particulièrement vrai en ce qui concerne les jeux. Dans le passé, la parole était le seul composant d'un jeu qu'il était impossible de créer à la demande. Même dans les titres interactifs avec des scènes de qualité cinématographique rendues en temps réel, les interactions verbales avec des personnages non lus sont toujours essentiellement statiques.

Maintenant, cependant, la technologie a rattrapé son retard. Les studios ont le potentiel de cloner la voix d'un acteur et d'utiliser des moteurs de synthèse vocale pour que les personnages puissent dire n'importe quoi en temps réel.

Il existe également des utilisations plus traditionnelles dans la publicité et le support technique et client. Ici, une voix qui sonne authentiquement humaine et qui répond personnellement et contextuellement sans intervention humaine est ce qui est important.

Les entreprises de clonage vocal sont également enthousiasmées par les applications médicales. Bien sûr, le remplacement de la voix n'a rien de nouveau en médecine – Stephen Hawking a utilisé une voix synthétisée robotique après avoir perdu la sienne en 1985. Cependant, le clonage de voix moderne promet quelque chose d'encore mieux.

En 2008, la société de voix synthétique CereProc a rendu au critique de cinéma, Roger Ebert, sa voix après que le cancer l'a emportée. CereProc avait publié une page Web qui permettait aux gens de taper des messages qui seraient ensuite prononcés avec la voix de l'ancien président George Bush.

«Ebert a vu cela et a pensé:« Eh bien, s’ils pouvaient copier la voix de Bush, ils devraient pouvoir copier la mienne », a déclaré Matthew Aylett, directeur scientifique de CereProc. Ebert a ensuite demandé à l'entreprise de créer une voix de remplacement, ce qu'elle a fait en traitant une grande bibliothèque d'enregistrements vocaux.

«C'était l'une des premières fois que quelqu'un avait fait ça et c'était un vrai succès», a déclaré Aylett.

Ces dernières années, un certain nombre d'entreprises (dont CereProc) ont travaillé avec l'Association ALS sur le projet Revoice pour fournir des voix synthétiques à ceux qui souffrent de la SLA.

Comment fonctionne l'audio synthétique

Le clonage vocal est en train de prendre son envol en ce moment et de nombreuses entreprises développent des outils. Ressemble AI et Descript ont des démos en ligne que tout le monde peut essayer gratuitement. Il vous suffit d'enregistrer les phrases qui apparaissent à l'écran et, en quelques minutes seulement, un modèle de votre voix est créé.

Vous pouvez remercier l'intelligence artificielle, en particulier les algorithmes d'apprentissage en profondeur, pour avoir pu associer la parole enregistrée au texte pour comprendre les phonèmes qui composent votre voix. Il utilise ensuite les blocs de construction linguistiques résultants pour approximer les mots qu'il ne vous a pas entendu parler.

La technologie de base existe depuis un certain temps, mais comme l'a souligné Aylett, elle nécessitait de l'aide.

«Copier la voix, c'était un peu comme faire de la pâtisserie», dit-il. «C'était un peu difficile à faire et il y avait plusieurs façons de le peaufiner à la main pour le faire fonctionner.»

Les développeurs avaient besoin d'énormes quantités de données vocales enregistrées pour obtenir des résultats acceptables. Puis, il y a quelques années, les vannes se sont ouvertes. La recherche dans le domaine de la vision par ordinateur s'est avérée essentielle. Les scientifiques ont développé des réseaux antagonistes génératifs (GAN) qui pourraient, pour la première fois, extrapoler et faire des prédictions sur la base des données existantes.

"Au lieu d'un ordinateur qui voit une image d'un cheval et dise" c'est un cheval ", mon modèle pourrait maintenant transformer un cheval en zèbre", a déclaré Aylett. «Ainsi, l'explosion de la synthèse vocale est maintenant due au travail académique de la vision par ordinateur.»

L'une des plus grandes innovations en matière de clonage de voix a été la réduction globale de la quantité de données brutes nécessaires pour créer une voix. Dans le passé, les systèmes nécessitaient des dizaines, voire des centaines d'heures d'audio. Maintenant, cependant, des voix compétentes peuvent être générées à partir de quelques minutes de contenu.

La peur existentielle de ne faire confiance à rien

Cette technologie, associée à l'énergie nucléaire, aux nanotechnologies, à l'impression 3D et à CRISPR, est à la fois passionnante et terrifiante. Après tout, il y a déjà eu des cas dans les nouvelles de personnes dupées par des clones de voix. En 2019, une entreprise du Royaume-Uni a affirmé avoir été trompée par un faux appel téléphonique audio pour transférer de l'argent à des criminels.

Vous n’avez pas besoin d’aller loin pour trouver des faux audio étonnamment convaincants. La chaîne YouTube Vocal Synthesis présente des personnes bien connues qui disent des choses qu'elles n'ont jamais dites, comme George W. Bush lisant «In Da Club» de 50 Cent. C'est parfait.

Ailleurs sur YouTube, vous pouvez entendre un troupeau d'anciens présidents, dont Obama, Clinton et Reagan, rapper NWA. La musique et les sons de fond aident à masquer certains des problèmes robotiques évidents, mais même dans cet état imparfait, le potentiel est évident.

Nous avons expérimenté les outils sur Resemble AI et Descript et créé un clone vocal. Descript utilise un moteur de clonage de voix qui s'appelait à l'origine Lyrebird et était particulièrement impressionnant. Nous avons été choqués par la qualité. Entendre votre propre voix dire des choses que vous savez que vous n’avez jamais dites est déconcertant.

Il y a certainement une qualité robotique dans le discours, mais sur une écoute occasionnelle, la plupart des gens n'auraient aucune raison de penser que c'était un faux.

Nous avions des espoirs encore plus grands pour Resemble AI. Il vous donne les outils pour créer une conversation avec plusieurs voix et varier l'expressivité, l'émotion et le rythme du dialogue. Cependant, nous ne pensions pas que le modèle de voix capturait les qualités essentielles de la voix que nous avons utilisée. En fait, il était peu probable de tromper qui que ce soit.

Un représentant de Resemble AI nous a dit que "la plupart des gens sont époustouflés par les résultats s'ils le font correctement." Nous avons construit un modèle de voix deux fois avec des résultats similaires. Il est donc évident qu’il n’est pas toujours facile de créer un clonage de voix que vous pouvez utiliser pour réussir un braquage numérique.

Même ainsi, le fondateur de Lyrebird (qui fait maintenant partie de Descript), Kundan Kumar, estime que nous avons déjà dépassé ce seuil.

«Pour un petit pourcentage de cas, il est déjà là», a déclaré Kumar. "Si j'utilise l'audio synthétique pour changer quelques mots dans un discours, c'est déjà tellement bon que vous aurez du mal à savoir ce qui a changé."

Nous pouvons également supposer que cette technologie ne fera que s'améliorer avec le temps. Les systèmes auront besoin de moins d'audio pour créer un modèle, et des processeurs plus rapides pourront créer le modèle en temps réel. Une IA plus intelligente apprendra comment ajouter une cadence humaine plus convaincante et mettre l'accent sur la parole sans avoir d'exemple sur lequel travailler.

Ce qui signifie que nous pourrions nous rapprocher de la disponibilité généralisée du clonage de voix sans effort.

L’éthique de la boîte de Pandore

La plupart des entreprises travaillant dans ce domaine semblent prêtes à gérer la technologie de manière sûre et responsable. Resemble AI, par exemple, a une section entière «Éthique» sur son site Web, et l'extrait suivant est encourageant:

«Nous travaillons avec les entreprises selon un processus rigoureux pour nous assurer que la voix qu'elles clonent est utilisable par elles et que les consentements appropriés sont en place avec les acteurs de la voix.»

De même, Kumar a déclaré que Lyrebird était préoccupé par les abus dès le début. C’est pourquoi maintenant, dans le cadre de Descript, il permet uniquement aux utilisateurs de cloner leur propre voix. En fait, Resemble et Descript exigent que les gens enregistrent leurs échantillons en direct pour éviter le clonage de voix non consensuel.

Il est réconfortant que les principaux acteurs commerciaux aient imposé des règles d’éthique. Cependant, il est important de se rappeler que ces entreprises ne sont pas les gardiens de cette technologie. Il existe déjà un certain nombre d'outils open source dans la nature, pour lesquels il n'y a pas de règles. Selon Henry Ajder, responsable du renseignement sur les menaces chez Deeptrace, vous n'avez pas non plus besoin de connaissances avancées en codage pour en abuser.

«Une grande partie des progrès dans l'espace est venu grâce à un travail collaboratif dans des endroits comme GitHub, en utilisant des implémentations open-source d'articles universitaires précédemment publiés», a déclaré Ajder. "Il peut être utilisé par toute personne ayant une maîtrise modérée du codage."

Les professionnels de la sécurité ont déjà vu tout cela

Les criminels ont essayé de voler de l'argent par téléphone bien avant que le clonage vocal ne soit possible, et les experts en sécurité ont toujours été sur appel pour le détecter et l'empêcher. La société de sécurité Pindrop tente d'arrêter la fraude bancaire en vérifiant si un appelant est bien celui qu'il prétend être à partir de l'audio. Rien qu'en 2019, Pindrop affirme avoir analysé 1,2 milliard d'interactions vocales et empêché environ 470 millions de dollars de tentatives de fraude.

Avant le clonage de voix, les fraudeurs ont essayé un certain nombre d'autres techniques. Le plus simple était juste d'appeler d'ailleurs avec des informations personnelles sur la marque.

«Notre signature acoustique nous permet de déterminer qu'un appel provient réellement d'un téléphone Skype au Nigéria en raison des caractéristiques sonores», a déclaré le PDG de Pindrop, Vijay Balasubramaniyan. «Ensuite, nous pouvons comparer le fait de savoir que le client utilise un téléphone AT&T à Atlanta.»

Certains criminels ont également fait carrière en utilisant des sons de fond pour décourager les représentants bancaires.

"Il y a un fraudeur que nous avons appelé Chicken Man qui avait toujours des coqs en arrière-plan", a déclaré Balasubramaniyan. "Et il y a une dame qui a utilisé un bébé qui pleurait en arrière-plan pour convaincre essentiellement les agents du centre d'appels, que" hé, je traverse une période difficile "pour avoir de la sympathie."

Et puis il y a les criminels masculins qui s’attaquent aux comptes bancaires des femmes.

«Ils utilisent la technologie pour augmenter la fréquence de leur voix, pour avoir un son plus féminin», a expliqué Balasubramaniyan. Celles-ci peuvent être couronnées de succès, mais «occasionnellement, le logiciel se trompe et il ressemble à Alvin et aux Chipmunks.»

Bien sûr, le clonage de voix n'est que le dernier développement de cette guerre sans cesse croissante. Les entreprises de sécurité ont déjà attrapé des fraudeurs utilisant l'audio synthétique dans au moins une attaque de chasse sous-marine.

"Avec la bonne cible, le paiement peut être massif", a déclaré Balasubramaniyan. «Il est donc logique de consacrer du temps à créer une voix synthétisée de la bonne personne.»

Quelqu'un peut-il dire si une voix est fausse?

Lorsqu'il s'agit de reconnaître si une voix a été truquée, il y a à la fois de bonnes et de mauvaises nouvelles. Le problème est que les clones de voix s'améliorent chaque jour. Les systèmes d'apprentissage en profondeur sont de plus en plus intelligents et produisent des voix plus authentiques qui nécessitent moins d'audio à créer.

Comme vous pouvez le voir dans ce clip du président Obama disant à MC Ren de prendre la parole, nous en sommes déjà arrivés au point où un modèle de voix haute fidélité soigneusement construit peut sembler assez convaincant à l'oreille humaine.

Plus un clip audio est long, plus vous avez de chances de remarquer qu’il y a un problème. Pour les clips plus courts, cependant, vous ne remarquerez peut-être pas qu'il est synthétique, surtout si vous n'avez aucune raison de remettre en question sa légitimité.

Plus la qualité du son est claire, plus il est facile de remarquer les signes d'un deepfake audio. Si quelqu'un parle directement dans un microphone de qualité studio, vous pourrez écouter attentivement. Mais un enregistrement d'appel téléphonique de mauvaise qualité ou une conversation capturée sur un appareil portatif dans un parking bruyant sera beaucoup plus difficile à évaluer.

La bonne nouvelle est que même si les humains ont du mal à séparer le réel du faux, les ordinateurs n’ont pas les mêmes limites. Heureusement, des outils de vérification vocale existent déjà. Pindrop en a un qui oppose les systèmes d'apprentissage en profondeur les uns aux autres. Il utilise les deux pour découvrir si un échantillon audio est la personne qu’il est censé être. Cependant, il examine également si un humain peut même émettre tous les sons de l'échantillon.

Selon la qualité de l'audio, chaque seconde de parole contient entre 8 000 et 50 000 échantillons de données pouvant être analysés.

"Les choses que nous recherchons généralement sont des contraintes sur la parole dues à l'évolution humaine", a expliqué Balasubramaniyan.

Par exemple, deux sons vocaux ont une séparation minimale possible l'un de l'autre. En effet, il n’est pas physiquement possible de les dire plus rapidement en raison de la vitesse à laquelle les muscles de votre bouche et des cordes vocales peuvent se reconfigurer.

«Quand nous regardons l'audio synthétisé», a déclaré Balasubramaniyan, «nous voyons parfois des choses et nous disons que« cela n'aurait jamais pu être généré par un humain parce que la seule personne qui aurait pu générer cela doit avoir un cou de sept pieds de long. "

Il existe également une classe de sons appelés «fricatives». Ils se forment lorsque l'air passe à travers une étroite constriction dans votre gorge lorsque vous prononcez des lettres comme f, s, v et z. Les fricatives sont particulièrement difficiles à maîtriser pour les systèmes d'apprentissage en profondeur car le logiciel a du mal à les différencier du bruit.

Donc, au moins pour le moment, les logiciels de clonage vocal sont trébuchés par le fait que les humains sont des sacs de viande qui font circuler l'air à travers les trous de leur corps pour parler.

"Je n'arrête pas de plaisanter en disant que les deepfakes sont très pleurnichards", a déclaré Balasubramaniyan. Il a expliqué qu’il était très difficile pour les algorithmes de distinguer les fins de mots du bruit de fond dans un enregistrement. Cela se traduit par de nombreux modèles vocaux avec une parole qui traîne plus que les humains.

"Lorsqu'un algorithme voit souvent cela se produire", a déclaré Balasubramaniyan, "statistiquement, il devient plus sûr que c'est l'audio qui a été généré par rapport à l'humain."

Resemble AI s'attaque également de front au problème de détection avec le Resemblyzer, un outil d'apprentissage en profondeur open source disponible sur GitHub. Il peut détecter les fausses voix et effectuer la vérification du locuteur.

Il faut de la vigilance

Il est toujours difficile de deviner ce que l’avenir nous réserve, mais cette technologie ne fera que s’améliorer. De plus, n'importe qui pourrait être une victime – pas seulement des personnes de premier plan, comme des élus ou des PDG de banques.

"Je pense que nous sommes au bord de la première brèche audio où la voix des gens est volée", a prédit Balasubramaniyan.

Pour le moment, cependant, le risque réel des deepfakes audio est faible. Il existe déjà des outils qui semblent faire un très bon travail de détection de la vidéo synthétique.

De plus, la plupart des gens ne risquent pas d’être attaqués. Selon Ajder, les principaux acteurs commerciaux «travaillent sur des solutions sur mesure pour des clients spécifiques, et la plupart ont de bonnes règles d'éthique quant à savoir avec qui ils travailleraient et ne voudraient pas travailler».

La vraie menace nous attend, cependant, comme Ajder a poursuivi en expliquant:

"Pandora’s Box sera des gens qui concocteront des implémentations open-source de la technologie dans des applications ou des services de plus en plus conviviaux et accessibles qui ne disposent pas de ce type de contrôle éthique que les solutions commerciales font pour le moment."

C'est probablement inévitable, mais les entreprises de sécurité intègrent déjà de fausses détections audio dans leurs boîtes à outils. Pourtant, rester en sécurité nécessite de la vigilance.

"Nous l'avons fait dans d'autres domaines de sécurité", a déclaré Ajder. «De nombreuses entreprises passent beaucoup de temps à essayer de comprendre quelle est la prochaine vulnérabilité zero-day, par exemple. L'audio synthétique est simplement la prochaine frontière. »