Google Translate bénéficie d'une mise à niveau majeure de Gemini
Google déploie une mise à jour majeure de ses modèles audio Gemini, apportant de puissantes capacités de traduction parole-parole en direct à l'application Google Translate. Cette mise à niveau utilise le modèle amélioré Gemini 2.5 Flash Native Audio, conçu pour gérer les interactions vocales complexes.
Cette nouvelle fonctionnalité de traduction vocale en direct est spécialement conçue pour les écouteurs, vous permettant essentiellement d'entendre le monde qui vous entoure traduit en temps réel. Cette expérience bêta est actuellement déployée dans l'application Google Translate. Si vous voyagez ou avez simplement besoin de communiquer malgré une barrière linguistique, il s'agit d'une fonctionnalité qui pourrait vraiment changer la façon dont vous interagissez avec des personnes qui ne parlent pas votre langue maternelle.
La fonctionnalité est divisée en deux modes. Premièrement, il y a une écoute continue. C'est parfait pour des situations comme écouter une conférence ou suivre une conversation de groupe. L'IA écoute plusieurs langues différentes à la fois et les convertit toutes dans la langue que vous comprenez. Il vous suffit de mettre vos écouteurs et d'entendre le monde traduit directement. Deuxièmement, il y a une conversation à double sens.
Celui-ci gère la traduction en temps réel entre deux langues spécifiques et permute automatiquement les langues à la volée en fonction de la personne qui parle. Par exemple, si vous parlez anglais et que la personne en face de vous parle hindi, vous entendez instantanément les traductions anglaises dans vos écouteurs et lorsque vous répondez, votre téléphone diffuse la traduction hindi.
Le détail qui distingue vraiment cette fonctionnalité est appelé « transfert de style ». Cela permet aux utilisateurs d'entendre les nuances du discours humain. Il imite la voix réelle de l'orateur, en adaptant sa vitesse et son ton afin que la traduction ne semble pas robotique. Au-delà de cela, le système offre un filtrage du bruit robuste, ce qui signifie que vous pouvez toujours tenir une conversation confortable même si vous êtes dans un environnement extérieur bruyant.
La couverture de traduction est étendue, prenant en charge plus de 70 langues et 2 000 paires de langues. Cette large prise en charge est due à la combinaison de la puissance de traitement audio de Gemini et de sa vaste base de données linguistiques.
Un autre élément clé est la saisie multilingue et la détection automatique. Cela permet au système de comprendre plusieurs langues simultanément en une seule session. Vous n'avez pas besoin de modifier les paramètres et vous n'avez même pas besoin de savoir quelle langue est parlée pour commencer à traduire. L'application découvre la langue toute seule et commence à traduire.
Derrière tout cela se trouve le modèle Gemini 2.5 Flash Native Audio mis à jour lui-même, qui alimente également les agents vocaux en direct de Google sur divers produits. Google a amélioré le modèle dans trois domaines techniques clés qui devraient permettre des performances plus rapides pour ceux qui utilisent les outils.
Le modèle a désormais des appels de fonctions plus précis. Cela signifie que le système est plus fiable lorsqu'il doit se connecter à des outils externes. Par exemple, il peut récupérer des données en direct pendant que vous parlez sans faire de pause ni interrompre le flux. Google rapporte un taux de respect de 90 % aux instructions des développeurs, contre 84 % dans les versions précédentes.
Enfin, les conversations elles-mêmes devraient être plus fluides. Le modèle se souvient de ce que vous avez dit plus tôt dans le chat. Cela l’aide à rester sur le sujet et ressemble moins à un échange décousu. Je dirais que cette amélioration de la qualité des conversations à plusieurs tours est ce qui est vraiment nécessaire à la stabilité de tout assistant vocal.
Ces améliorations ne concernent pas uniquement l’application Translate. Le nouveau Gemini 2.5 Flash Native Audio est déployé dans les produits Google, notamment Google AI Studio, Vertex AI, Gemini Live et Search Live. Vous pouvez également vous attendre à des séances de brainstorming plus efficaces avec Gemini Live ou à une meilleure aide en temps réel dans Search Live.
Si vous souhaitez essayer la fonctionnalité de traduction en direct, l'expérience bêta est déployée à partir d'aujourd'hui dans l'application Google Translate. Vous pouvez connecter vos écouteurs à votre appareil et appuyer sur « Traduire en direct ». Pour l'instant, cette expérience est disponible sur les appareils Android aux États-Unis, au Mexique et en Inde, avec une prise en charge pour iOS et dans d'autres régions à venir.
