Comment les Deepfakes alimentent un nouveau type de cybercriminalité –
Faire des deepfakes devient plus facile, et ils sont plus convaincants que jamais. Les cybercriminels utilisent des deepfakes vidéo et audio pour extorquer de l’argent aux victimes en ajoutant une « fausse authenticité » crédible à leurs escroqueries.
Sommaire
Modifier les croyances des gens
Depuis que la première personne a dit « la caméra ne ment jamais », il y a eu des gens pour prouver le contraire. Les photographes créatifs de la fin du XIXe siècle utilisaient des astuces simples pour créer de fausses images.
Le gag « personne dans une bouteille » a connu son moment de popularité. Prenez une photo de vous-même dans une pose appropriée. Développer et imprimer la photographie à la taille appropriée. Découpez votre image, placez-la dans une bouteille en verre et prenez une autre photo de vous tenant la bouteille. Hé hop, vous avez une image de vous tenant une bouteille contenant une version miniature de vous-même.
Bien sûr, aujourd’hui, nous pouvons faire ce genre de chose en utilisant Photoshop ou GIMP. Et nous sommes conscients qu’avec des compétences et une créativité suffisantes, les experts peuvent créer des images qui semblent complètement authentiques et contiennent pourtant des éléments impossibles. Paradoxalement, cette prise de conscience peut nous amener à douter des photographies authentiques. Une image surprenante qui, par pur hasard, capture un événement unique dans une vie est toujours accueillie par la question « Est-ce réel ? »
Une photographie d’une personne miniature dans une bouteille est évidemment truquée. Mais changez une photo pour qu’elle montre quelque chose qui pourrait être vrai et qu’elle ait également l’air réelle, et certaines personnes le croiront.
Il ne s’agit plus de gags visuels. C’est une imagerie militarisée. C’est de l’ingénierie sociale.
Images animées et talkies
Dès que le cinéma est devenu un spectacle social, les cinéastes pionniers ont utilisé des effets spéciaux et des astuces pour résoudre deux problèmes. L’un filmait quelque chose qui pouvait vraiment arriver mais n’était pas pratique à filmer, et l’autre filmait quelque chose qui était tout simplement impossible. La solution à cela a donné naissance à l’énorme industrie des effets spéciaux que nous avons aujourd’hui.
L’ajout de sons et de dialogues a vu la disparition du cinéma muet et l’essor du cinéma parlant. Certaines stars silencieuses n’ont pas fait la transition. Leur voix n’était pas juste, ou ils ne pouvaient pas livrer des lignes avec conviction et timing. Jusqu’à ce que l’overdub devienne une chose, il n’y avait pas d’autre solution que de caster quelqu’un d’autre.
Aujourd’hui, nous manipulons aussi les voix des acteurs. George Clooney a-t-il vraiment chanté Ô frère, où es-tu? Non, c’était la voix de Dan Tyminski, synchronisée sur les lèvres de l’ordinateur avec l’image en mouvement de George Clooney.
Les systèmes capables de faire ce type de manipulation vidéo et sonore sont volumineux et coûteux, et ils ont besoin d’experts pour les piloter. Mais des résultats finaux convaincants peuvent être obtenus en utilisant un logiciel facile à obtenir et relativement simple qui fonctionnera sur du matériel informatique raisonnable.
La vidéo et l’audio peuvent ne pas être de qualité hollywoodienne, mais c’est certainement assez bon pour permettre aux cybercriminels d’ajouter de fausses images, vidéo et audio à leur arsenal d’armes.
contrefaçons profondes
Le terme deepfake a été inventé pour décrire des séquences numériques manipulées de sorte que quelqu’un dans la vidéo porte entièrement le visage d’une autre personne. La partie « deep » du nom vient de « deep learning », l’un des domaines d’apprentissage automatique de l’intelligence artificielle. L’apprentissage automatique utilise des algorithmes spécialisés et de nombreuses données pour former des réseaux de neurones artificiels afin d’atteindre un objectif. Plus vous avez de données pour entraîner le système, meilleurs sont les résultats.
Fournissez-lui suffisamment de photographies de quelqu’un et un système d’apprentissage approfondi comprendra si bien la physionomie du visage de cette personne qu’il pourra déterminer à quoi cela ressemblerait en affichant n’importe quelle expression, sous n’importe quel angle. Il peut ensuite créer des images du visage de cette personne qui correspondent à toutes les expressions et poses de la tête de la personne dans la vidéo.
Lorsque ces images sont insérées dans la vidéo, le nouveau visage correspond parfaitement à l’action de la vidéo. Étant donné que les expressions faciales créées artificiellement, la synchronisation des lèvres et les mouvements de la tête sont les mêmes que ceux portés par la personne d’origine lorsque la vraie vidéo a été tournée, le résultat peut être un faux très convaincant.
Cela est particulièrement vrai lorsque les deux formes de visage sont similaires. Un deepfake bien connu cartographie le visage de Lynda Carter sur le corps de Gal Gadot, fusionnant deux versions de Wonder Woman. D’autres exemples très médiatisés comprenaient Barack Obama et Tom Cruise. Vous pouvez les trouver – et bien d’autres exemples – sur YouTube.
Les mêmes techniques d’apprentissage automatique peuvent être appliquées à l’audio. Avec suffisamment d’échantillons de voix, vous pouvez entraîner un réseau de neurones artificiels à produire un son de haute qualité reproduisant la voix échantillonnée. Et vous pouvez lui faire dire tout ce que vous voulez. Vous voulez entendre Notorious BIG rapper certaines des terreurs eldtrich de HP Lovecraft ? Encore une fois, YouTube est l’endroit. En fait, vous entendrez quelque chose qui ressemble beaucoup à Notorious BIG rapping Lovecraft.
Au-delà des mash-ups fous et des blockbusters estivaux, ces techniques trouvent des utilisations fonctionnelles ailleurs. Descript est un éditeur de sons et de vidéos qui crée une transcription textuelle de votre enregistrement. Modifiez le document texte et les modifications sont apportées à l’enregistrement. Si vous n’aimez pas la façon dont vous avez dit quelque chose, modifiez simplement le texte. Descript synthétisera tout son manquant à partir de votre propre voix. Il peut synthétiser une voix à partir d’une minute seulement d’enregistrement vocal original.
La chaîne de télévision coréenne MBN a créé un deepfake de Kim Joo-Ha, leur présentateur de nouvelles. Si une histoire qui serait généralement gérée par Kim Joo-Ha se brise lorsqu’elle n’est pas en studio, le deepfake la livre.
La cybercriminalité a déjà commencé
Les cybercriminels sont toujours prompts à prendre le train en marche qu’ils peuvent utiliser pour améliorer ou moderniser leurs attaques. Les contrefaçons audio deviennent si bonnes qu’il faut un analyseur de spectre pour identifier définitivement les contrefaçons, et des systèmes d’IA ont été développés pour identifier les vidéos deepfake. Si manipuler des images vous permet de les armer, imaginez ce que vous pouvez faire avec des contrefaçons sonores et vidéo suffisamment bonnes pour tromper la plupart des gens.
Des crimes impliquant des images et du son falsifiés ont déjà eu lieu. Les experts prédisent que la prochaine vague de cybercriminalité deepfake impliquera la vidéo. La « nouvelle normalité » du travail à domicile et des appels vidéo pourrait bien avoir inauguré la nouvelle ère de la cybercriminalité deepfake.
Attaques d’hameçonnage
Une ancienne attaque par e-mail de phishing consiste à envoyer un e-mail à la victime, affirmant que vous avez une vidéo d’elle dans une position compromettante ou embarrassante. À moins que le paiement ne soit reçu en Bitcoin, les images seront envoyées à leurs amis et collègues. Craignant qu’il y ait une telle vidéo, certaines personnes paient la rançon.
La variante deepfake de cette attaque consiste à joindre des images à l’e-mail. Il s’agirait d’images agrandies de la vidéo. Le visage de la victime, qui occupe la majeure partie du cadre, a été inséré numériquement dans les images. Pour les non-initiés, ils rendent la menace de chantage plus convaincante.
À mesure que les systèmes deepfake deviennent plus efficaces, ils peuvent être entraînés avec des ensembles de données de plus en plus petits. Les comptes de médias sociaux peuvent souvent fournir suffisamment d’images à utiliser comme base de données d’apprentissage.
Attaques Vishing
Les attaques de phishing par e-mail utilisent diverses techniques pour générer un sentiment d’urgence afin d’inciter les gens à agir rapidement, ou elles jouent sur le désir d’un employé d’être perçu comme utile et efficace. Les attaques de phishing menées par téléphone sont appelées attaques de vishing. Ils utilisent les mêmes techniques d’ingénierie sociale.
Un avocat aux États-Unis a reçu un appel téléphonique de son fils, qui était manifestement bouleversé. Il a déclaré qu’il avait heurté une femme enceinte dans un accident de voiture et qu’il était maintenant en détention. Il a dit à son père de s’attendre à un appel d’un défenseur public pour organiser une caution de 15 000 $.
L’appel ne provenait pas de son fils, il s’agissait d’escrocs utilisant un système de synthèse vocale qu’ils avaient formé à l’aide d’extraits sonores de son fils pour créer un deepfake audio. L’avocat ne l’a pas remis en question un instant. En ce qui le concernait, il parlait à son propre fils. En attendant l’appel du défenseur public, il a pris le temps d’appeler sa belle-fille et le lieu de travail de son fils pour les informer de l’accident. La nouvelle est parvenue à son fils qui a sonné pour lui dire que c’était une arnaque.
Un PDG au Royaume-Uni n’a pas eu cette chance. Il a reçu un e-mail de phishing prétendument du directeur général de la société mère allemande de l’entreprise. Celui-ci a demandé un paiement de 243 000 £ (environ 335 000 $) à effectuer à un fournisseur hongrois dans l’heure. Il a été immédiatement suivi d’un appel téléphonique du directeur général, confirmant que le paiement était urgent et devait être effectué immédiatement.
La victime dit qu’il a non seulement reconnu la voix et le léger accent allemand de son patron, mais il a également reconnu la cadence et l’énonciation prudente. Alors il a heureusement fait le paiement.
Contre-mesures
La menace potentielle des deepfakes a été reconnue par le gouvernement américain. La Malicious Deep Fake Prohibition Act de 2018 et la loi sur l’identification des sorties de réseaux génératifs contradictoires ou IOGAN Act ont été créées en réponse directe aux menaces posées par les deepfakes.
Les entreprises doivent ajouter des discussions sur les deepfakes à leur formation de sensibilisation à la cybersécurité. La formation à la cyber-sensibilisation doit faire partie de l’initiation d’un nouveau débutant et doit être répétée périodiquement pour tout le personnel.
Jusqu’à présent, les attaques qui ont été observées sont des versions raffinées d’attaques de phishing et de spear-phishing. Des procédures simples peuvent aider à piéger beaucoup d’entre eux.
- Aucun transfert de fonds ne doit être effectué uniquement sur réception d’un e-mail.
- Un appel téléphonique de suivi doit être passé du destinataire de l’e-mail à l’expéditeur, et non de l’expéditeur au destinataire.
- Des phrases de défi peuvent être incorporées qu’un attaquant extérieur ne connaîtrait pas.
- Faites des références croisées et revérifiez tout ce qui sort de l’ordinaire.