ChatGPT logo surrounded by purple and green lines.
Agence web » Actualités du digital » ChatGPT Advanced Voice est génial, mais je me sens trompé

ChatGPT Advanced Voice est génial, mais je me sens trompé

Points clés à retenir

  • GPT-4o n’a pas tenu ses grandes promesses, manque de capacités de vision et offre une fonctionnalité limitée.
  • Advanced Voice, utilisant GPT-4o comme base, offre des voix de type humain mais manque de fonctionnalités de chant et présente des bugs.
  • Bien que ce ne soit pas ce qui avait été promis, ChatGPT Advanced Voice possède des voix uniques et un potentiel de narration de base et d'apprentissage des langues.

La dernière offre d'OpenAI promettait une expérience de type science-fiction, mais la réalité est loin d'être à la hauteur du battage médiatique. On nous avait promis un assistant IA capable de voir le monde et de parler comme un humain. Au lieu de cela, nous avons eu un chatbot aveugle qui dit simplement : « Désolé, je ne peux pas faire ça », de neuf nouvelles voix émotives.

La promesse que nous avons faite avec GPT-4o

Lorsque OpenAI a dévoilé GPT-4o en mai 2024, nous avions l’impression d’être à l’aube de la prochaine grande révolution technologique dans l’interaction homme-machine. C'était une histoire de science-fiction devenue réalité dans laquelle nous voyions un assistant IA capable de s'engager dans des interactions de type humain, comme dans le film. Son.

Voici un rappel de tout ce qui a été démo :

  • Conversations vocales en temps réel.
  • La possibilité d’interrompre et de rediriger les conversations de manière naturelle.
  • Une voix réaliste avec une vaste gamme émotionnelle.
  • Capacités de narration dramatique et de chant.
  • Capacités multilingues et traduction améliorées.
  • Performances améliorées dans les langues autres que l’anglais.
  • Capacités visuelles :
    • Résoudre des problèmes mathématiques écrits sur une feuille de papier.
    • Lire les expressions faciales et comprendre les environnements.
  • Plus intelligent que GPT-4 Turbo, le modèle phare d'OpenAI avant GPT-4o.

En tant que package complet, GPT-4o semblait apporter un changement de paradigme dans la façon dont nous utilisons et interagissons avec nos ordinateurs. Les démos étaient tout simplement époustouflantes et mon esprit s’emballait avec des possibilités illimitées.

Par exemple, je pourrais enfin annuler mon abonnement Calm et utiliser ChatGPT pour me raconter des histoires au coucher. Je pourrais l'utiliser comme entraîneur personnel : placez-le sur un bureau pour suivre mes répétitions et ma posture. Il pourrait chanter mes paroles pendant que je créais des morceaux avec Udio.

Inutile de dire que j’étais plus que ravi. C’était l’avenir que j’attendais !

…Mais la promesse n'a pas encore été tenue

Avance rapide une semaine après la grande annonce, et j'ai enfin mis la main sur GPT-4o. OpenAI a déclaré qu'ils déploieraient lentement tout ce dont ils avaient fait la démonstration. Ainsi, ce GPT-4o était uniquement en texte. Il pourrait accepter du texte et des images en entrée et répondre sous forme de texte.

Il était plus intelligent que le modèle précédent mais n’était pas l’assistant de science-fiction qu’on nous avait promis. Pour ajouter l'insulte à l'injure, sa couronne « plus intelligente » a été rapidement arrachée un mois plus tard par Claude 3.5 Sonnet, qui surpasse GPT-4o dans les tâches de codage et de création !

Enfin, en juillet, Advanced Voice a commencé à être déployé en version alpha auprès de quelques utilisateurs sélectionnés. Mais encore une fois, c'était juste la voix – aucune capacité visuelle en vue. Bien sûr, c'était mieux que l'ancien mode Standard Voice, où il fallait attendre longtemps pour qu'il réponde, mais ce n'était pas vraiment révolutionnaire.

Septembre 2024 a vu un déploiement plus large avec la version finale, et j'ai mis la main dessus. Cependant, pouvons-nous vraiment appeler cela final alors qu'il ne tient toujours pas la promesse initiale ?

Mon expérience avec ChatGPT Advanced Voice et pourquoi je me sens trompé

Soyons clairs : la fonctionnalité Advanced Voice entièrement déployée est impressionnante. La qualité de la voix est indéniablement la voix IA la plus humaine du marché. Les conversations semblent étrangement naturelles, comme si je parlais à une autre personne.

Malheureusement, ce n’est pas très utile en pratique. Il n'y a toujours pas de capacité de vision, ce qui limite considérablement ce que vous pouvez en faire. Et je comprends; la fonctionnalité s'appelle Advanced Voice, donc je n'aurais pas dû espérer qu'elle serait capable de voir des choses. Cependant, il ne peut même pas voir les images que vous avez téléchargées sur une discussion. Même Standard Voice peut le faire !

De plus, la voix n'est pas celle-là avancé. Il utilise toujours GPT-4o comme cerveau, ce qui, avouons-le, n'est plus l'outil le plus performant du hangar de l'IA. Advanced Voice refuse également de chanter. Il semble qu'OpenAI n'ait pas l'intention d'ajouter le chant en tant que fonctionnalité, même s'il l'a montré dans sa démo. Voici comment il a répondu lorsqu'on lui a demandé.

Puis-je générer du contenu musical avec des conversations vocales ?

Non. Afin de respecter les droits des créateurs, nous avons mis en place plusieurs mesures d'atténuation, notamment de nouveaux filtres, pour empêcher les conversations vocales de répondre avec du contenu musical, y compris du chant.

Bien que la limitation soit probablement due à d'éventuels problèmes juridiques, il est ridicule que mon assistant ne me chante même pas « Joyeux anniversaire ! » OpenAI aurait pu au moins lui permettre de chanter des trucs dans le domaine public. On dirait que je suis coincé avec Google Assistant pour les souhaits d'anniversaire !

Venons-en maintenant à la modulation vocale, c'est bien ! Encore une fois, c'est mieux que tout ce qui existe sur le marché, mais pas exceptionnel. J'ai essayé de le faire parler comme Marvel's Venom, et c'était aléatoire. Parfois, il disait « bien sûr » et essayait de ressembler à lui – mais il ne parvenait jamais à trouver la bonne voix. D’autres fois, il me dirait qu’il ne peut pas usurper l’identité de personnages ou de célébrités spécifiques.

C'est assez juste, je suppose, alors j'ai essayé de demander une voix gargouillante avec beaucoup de frites vocales pour voir si cela fonctionnait, mais cela ne sonnait toujours pas bien. J’ai même essayé de jouer avec différents paramètres vocaux pour voir si je pouvais réussir le son, mais ce fut une expérience ratée. Bien qu'il y ait une bonne quantité de flexibilité, vous ne pouvez pas l'étirer suffisamment pour obtenir ces voix uniques.

De plus, vous devez être très précis dans le langage que vous utilisez. Il n'aura pas besoin de vos demandes pour imiter ou se faire passer pour un personnage connu, mais si vous lui demandez d'essayer de parler comme quelqu'un, il essaie de moduler sa voix.

Si toutes ces limitations ne suffisent pas, vous devez également faire face à des bugs. Parfois, Advanced Voice prend une éternité à charger, m'obligeant à quitter et à essayer de me reconnecter. Ce n'est pas non plus idéal pour raconter des histoires ou livrer de longs monologues. Après environ une minute, il cessera de parler, à moins que vous ne lui disiez à plusieurs reprises de continuer. Voilà pour mon projet de l’utiliser comme conteur au coucher !

Il y a encore une lueur d'espoir

Heureusement, tout n'est pas mauvais ! Vous bénéficiez de tonnes de nouvelles options vocales, chacune avec sa propre personnalité et sa propre plage de modulation vocale. Actuellement, mes voix préférées sont Maple, Arbour et Vale. Même si je ne parvenais pas à faire en sorte qu'aucun d'entre eux ressemble à Venom, j'ai réussi à faire en sorte qu'Arbour ressemble à un anti-héros, ce qui était plutôt cool.

C'est aussi idéal pour réfléchir à voix haute ! Avoir un interlocuteur toujours disponible, même s'il n'est pas le plus pointu, est plutôt astucieux. C'est comme avoir le crâne de Sherlock sur lequel faire rebondir ses idées.

Bien qu'Advanced Voice ne soit pas ce que GPT-4o a été présenté en démonstration, il reste puissant et potentiellement utile dans certains scénarios. Je peux voir comment d'autres pourraient l'utiliser pour la narration de base pour les enfants, l'apprentissage des langues ou des traductions rapides. Ce sont des cas d’utilisation légitimes, et quiconque les recherche ne sera pas déçu.


En fin de compte, ChatGPT Advanced Voice est un pas en avant, mais c'est un pas beaucoup plus petit que ce qui nous avait été promis. Cela nous rappelle que dans le monde de l’IA, nous devons toujours prendre les grandes promesses avec des pincettes. En espérant que les futures mises à jour nous rapprocheront de cet assistant de science-fiction dont nous rêvions tous.

★★★★★