A cartoon of two people talking in Google Meets with the translation showing English to Spanish
Agence web » Actualités du digital » Google explique comment il a réussi la traduction en direct de Meet

Google explique comment il a réussi la traduction en direct de Meet

Google a retiré le rideau sur la façon dont il a développé la fonction de traduction en direct de Google Meet. Les équipes d'ingénierie audio et de gestion des produits de l'entreprise, ainsi que Google Deepmind, ont pu atteindre ce qui était apparemment un objectif de cinq ans en seulement deux ans.

Fredric, qui dirige l'équipe d'ingénierie audio pour Meet, a expliqué que Google savait que la traduction instantanée était nécessaire pour les appels en direct, et les percées dans les grands modèles le rendent possible. Ce n'est pas un secret que la traduction en direct a été un objectif dans les services de Google, mais les ingénieurs de Pixel, Cloud et Chrome ont tous travaillé avec Google DeepMind pour faire de la traduction vocale en temps réel une réalité.

L'ancienne façon de faire les choses était apparemment maladroite, pour dire le moins. La technologie de traduction audio précédente a dû passer par un processus en plusieurs étapes: il transcrire la parole, traduire le texte, puis le reconvertir en discours. Comme vous pouvez l'imaginer, cela a conduit à de graves problèmes de latence, avec des retards de 10 à 20 secondes. Cela a rendu la conversation naturelle à peu près impossible. De plus, les voix traduites étaient génériques, elles n'avaient donc pas les inflexions et les manières d'une personne qui parle, ce qui enlève l'expérience globale.

Selon Huib, qui est la tête de la gestion des produits du côté de la qualité audio, la vraie percée provenait de «grands modèles», qui sont différents des modèles de grande langue (LLM) dont nous entendons tellement parler. Ces modèles sont capables de traduction « à un coup », ce qui signifie que vous envoyez en audio et le modèle commence presque immédiatement à sortir l'audio traduit.

Cela réduit considérablement la latence de quelque chose qui imite réellement un interprète humain. L'entreprise a trouvé un point idéal de deux à trois secondes de latence, ce qui est juste assez de temps pour que le cerveau traite ce qui est dit et ne se confond pas par une réponse immédiate, mais pas si longtemps qu'elle est gênante. Avec ce timing, le nouveau modèle de Google Meet permet d'avoir une conversation simultanée avec des personnes qui parlent différentes langues.

Bien sûr, construire quelque chose que ce complexe n'était pas sans défis. L'un des plus grands obstacles était de s'assurer que les traductions étaient de haute qualité, car des choses comme l'accent d'un haut-parleur, le bruit de fond ou les problèmes de réseau peuvent lancer une clé en cours. Les équipes Meet et DeepMind ont dû travailler ensemble pour affiner ces modèles et les ajuster en fonction des performances du monde réel. Les équipes ont même fait venir des linguistes et d'autres experts en langue pour les aider à comprendre toutes les petites nuances de la traduction et des accents.

Certaines langues, comme l'espagnol, l'italien, le portugais et le français, sont plus faciles à intégrer car elles ont une affinité plus étroite. D'un autre côté, les langues avec différentes structures, comme l'allemand, étaient beaucoup plus difficiles à cause de choses comme la grammaire et les idiomes communs.

À l'heure actuelle, le modèle traduit littéralement la plupart des expressions, ce qui peut parfois conduire à des malentendus assez drôles. Mais Huib et Frederic s'attendent à ce que les futures mises à jour, en utilisant des LLM plus avancées, pourront saisir et traduire ces nuances plus précisément, même en ramassant des choses comme le ton et l'ironie. Jusque-là, le simple fait d'avoir un traducteur en direct sur lequel vous pouvez compter est une affaire énorme, donc c'est une victoire dans l'ensemble.

★★★★★