La doublage automatique de YouTube est une fonctionnalité intéressante avec une exécution épouvantable
Récemment, j'ai vu de tout nouveaux créateurs dans mon flux YouTube. Nouvelles vignettes vidéo avec une petite marque dans le coin indiquant « doublée automatiquement ». Oh, chouette ! Cela signifie que je peux voir beaucoup plus de contenu du monde entier – j’aime cette idée.
Autrement dit, je l'ai aimé jusqu'à ce que je clique sur l'une de ces vidéos. Même si c'est une excellente idée, la réalisation laisse à désirer.
Sommaire
La promesse du doublage automatique
La nouvelle fonctionnalité de doublage basée sur l'IA de YouTube est l'aboutissement de plusieurs technologies qui ont atteint le point où quelque chose comme cela est possible. L’IA avancée peut désormais transcrire les mots prononcés dans presque toutes les langues avec un haut degré de précision. La technologie de l’IA peut également synthétiser une voix humaine basée sur ce texte qui est essentiellement impossible à distinguer d’une vraie voix humaine. Encore plus impressionnant, vous pouvez cloner la voix de l'orateur dans la langue d'origine, pour donner l'impression qu'il parle la langue cible avec sa propre voix.
Combinez cela avec l’énorme quantité de puissance de calcul de YouTube et vous obtenez un doublage automatique. Il existe tout un monde de contenu YouTube non anglais et, bien sûr, une grande partie du monde qui ne parle pas anglais. Ainsi, une fonctionnalité de doublage automatique comme celle-ci a le potentiel de débloquer l’intégralité de YouTube pour n’importe qui. J'observe depuis longtemps sur X que les gens utilisent des outils de doublage basés sur l'IA pour les vidéos publiées. Il est donc clair qu'il y a une demande pour cela, mais dans quelle mesure cela fonctionne-t-il ?
Les problèmes de qualité sont réels
Tout d’abord, je dois noter que YouTube semble actuellement assez conscient de toutes les lacunes de cette fonctionnalité. Si vous consultez le document d'aide officiel pour la copie automatique, il les répertorie presque tous.
Un gros problème que j'ai est de savoir comment le doublage remplace la quasi-totalité de la piste audio. Ainsi, tout son qui n'est pas un dialogue parlé disparaît. Cela revient ici et là par segments sans discours, mais pour la plupart, ces vidéos doublées semblent vides. Je sais qu'il est possible d'effacer la voix originale de la vidéo sans supprimer le reste du son, j'espère donc que nous verrons une version de doublage automatique capable de restaurer le mixage audio original de ces vidéos. Bon sang, cela ne me dérangerait pas une sorte d'IA qui pourrait simplement corriger le mixage audio des vidéos YouTube, car beaucoup de YouTubers ne savent pas comment mixer leur audio.
L'autre problème est un peu plus subtil et est également reconnu par YouTube. La voix doublée est sans vie et ne semble pas essayer de correspondre au ton ou à l'énergie de la voix originale. De cette façon, cela ressemble beaucoup au genre de doublage en direct que l’on obtient aux Nations Unies, avec un traducteur plutôt désintéressé. YouTube y travaille évidemment activement, mais les doublages que j'ai entendus ne le montrent pas encore.
Pour autant que je sache, il n'y a aucune tentative de faire correspondre l'audio aux mouvements de la bouche de l'orateur, ce qui est une bonne chose, mais il est étrange que les doublages son comme le type qui essaie de suivre le mouvement de la bouche. Ajouter des choses comme « n'est-ce pas ? et « tu sais ? », ou « OK ? Bien sûr, pour autant que je sache, tout cela figurait sur la piste audio originale. Mais comme je ne parle pas la langue originale, je ne peux pas savoir. Tout ce que je sais, c'est que les doublages semblent gênants à cause de cela.
En plus de cela, il existe tous les artefacts que vous obtenez à partir des voix brutes générées par l’IA. Par exemple, prononcer mal des abréviations telles que « MB » par « em-bee » au lieu de « mégaoctet ». Je ne peux pas blâmer YouTube pour cela en particulier, cependant, sans que les humains ne peaufinent l'IA, la synthèse vocale a toujours ces problèmes d'après mon expérience.
Le conflit entre accès et précision
Ces problèmes de qualité sont ennuyeux, mais ils peuvent être améliorés au fil du temps. En fin de compte, c'est une question de raffinement de la technologie. Ce qui n’est pas si simple à résoudre, c’est la confiance dans la traduction elle-même. La traduction automatique a parcouru un très long chemin depuis les débuts de la lecture de manuels de gadgets dans un anglais approximatif. Cependant, même les traducteurs humains experts trouvent ce travail délicat et commettent des erreurs.
L’essentiel est que même lorsque je regarde une vidéo doublée automatiquement, je ne sais pas si je peux ou non faire confiance aux informations contenues dans cette vidéo. Ce n’est bien sûr pas différent des sous-titres, mais les doublages sont plus populaires que les sous-titres, même si ce fan d’anime grincheux doit l’admettre. Les possibilités de désinformation sont donc bien plus grandes grâce à cette fonctionnalité, surtout si YouTube a pris cela comme un feu vert pour diffuser des vidéos dans les flux de personnes qui parlent une langue différente de celle du matériel source.
Je détesterais être pris à partie pour l'une de mes propres vidéos YouTube pour quelque chose que je n'ai pas réellement dit ! J'ai déjà écrit que la confiance est la seule chose que l'IA ne peut pas résoudre en injectant plus d'argent et de technologie pour résoudre le problème, et cela pourrait être un excellent exemple.
Comment YouTube pourrait le faire fonctionner
J'aime la fonctionnalité de doublage automatique et je pense qu'elle a beaucoup de potentiel, mais je pense que YouTube pourrait mettre en œuvre immédiatement certaines choses qui l'amélioreraient.
Tout d’abord, j’aimerais voir un moyen simple et initial de désactiver les doublages automatiques apparaissant dans mon flux ou dans les recherches. Rendez-le aussi simple que de filtrer les courts métrages YouTube, par exemple. La deuxième chose que j'aimerais voir est une sorte de score de confiance de l'IA dans la traduction, et peut-être plus important encore, des évaluations humaines de personnes parlant les deux langues.
Avoir des évaluations humaines sur la qualité du doublage renforcerait énormément la confiance. Laisser ces mêmes personnes donner des commentaires spécifiques que l’IA peut utiliser serait un double gain. Jusqu'à présent, j'ai donné un C à l'ensemble de la fonction de doublage automatique. Pas mal, mais cela pourrait être mieux.
