L'agentique AI est-elle parfaite de votre navigateur?
Sommaire
Résumé
-
L'IA agentique dans les navigateurs peut automatiser des tâches comme l'achat de billets d'événements, la réservation d'hôtels et les formulaires de remplissage.
-
L'opérateur distant de ChatGPT s'exécute sur un serveur, tandis que la version d'Opera fonctionne directement dans votre navigateur.
-
Malgré certains bords rugueux, un opérateur raffiné pourrait potentiellement être un outil d'utilisation quotidien pour diverses tâches de navigation.
Ceux qui me connaissent savent que je suis sceptique de beaucoup de choses qui accompagnent le mot « IA » attaché. Une grande partie de ce n'est que des gadgets, et certaines entreprises font définitivement l'IA comme un moyen facile d'obtenir des points de cookie des investisseurs.
L'IA agentique emprunte le même itinéraire, mais son application la plus réaliste jusqu'à présent pourrait être celle que vous avez ignorée – les navigateurs.
Comment fonctionne l'IA agentique dans les navigateurs
J'ai récemment été invité à l'événement des jours de navigateur de l'opéra à Lisbonne, au Portugal. Là, j'ai pu voir, entre autres, une démo en direct de la nouvelle fonctionnalité de l'opérateur de l'entreprise. Il s'agit, d'une certaine manière, d'une extension du chatbot Aria intégré du navigateur, et la façon dont elle fonctionne est qu'il peut effectuer des actions dans le navigateur et dans les sites Web de vos invites de texte.
Vous pouvez lui dire d'acheter quelque chose pour vous sur un site Web, de trouver et de réserver un hôtel ou un Airbnb, de remplir un formulaire, d'acheter des billets d'avion … tout ce qui est « fastidieux » dans votre expérience de navigation Web au jour le jour, vous devriez pouvoir le décharger à l'opérateur en direct.
Tout ce que vous avez à faire est de lui dire exactement ce que vous avez besoin de faire et de lui donner autant de détails que possible. D'une part, si vous souhaitez acheter des billets pour un événement, vous devriez dire à l'opérateur exactement à quel site Web aller, où vous voulez vous asseoir et combien vous êtes prêt à dépenser.
Semblable à la façon dont vous ne devriez pas s'appeler en conduisant une voiture autonome, vous devez garder un œil et être prêt à prendre le contrôle à tout moment pendant que l'opérateur fait quelque chose. S'il arrive à l'écran de paiement, et qu'il ne peut pas passer par les détails de votre carte de crédit, vous devez simplement attendre qu'il abandonne et les saisis vous-même, plutôt que de simplement donner à l'AI votre numéro de carte de crédit, pour des raisons évidentes. Pourtant, c'est assez soigné.
Pendant la démo en direct montré à Geek.l'équipe de l'opéra a fait aller l'opérateur sur un site Web de livraison de fleurs, choisir des fleurs jaunes, les acheter et les livrer dans la chambre d'hôtel de l'un des journalistes présents. Les fleurs ont été livrées le lendemain, tout comme elles l'auraient été si un humain les avait achetés.
Selon l'entreprise, l'opérateur va profondément dans la structure sous-jacente d'un site Web et le déshabille en interne plutôt que de simplement regarder la disposition et les boutons frontaux et essayer de deviner ce qu'ils font. Il « lit » la structure de la page pour comprendre comment effectuer des actions comme cliquer, taper et naviguer.
Maintenant, attendez-vous, cet opérateur a encore beaucoup de bords rugueux à polir, c'est probablement pourquoi Opera ne s'engage pas pour un délai de version spécifique pour cela. La démo elle-même a frappé les accrocs à quelques reprises qui a fait qu'il ne fasse pas quelque chose de très bien ou échoue à une tâche spécifique. C'est une sorte de problème plus important avec l'IA agentique en général en ce moment, plus tard. Mais quand c'est en fait quelque chose qui est prêt pour les heures de grande écoute, j'ai l'impression qu'un navigateur est un bon arrêt pour cette technologie.
Comment il se compare à d'autres AI agents
Même si c'est cool, les yeux vifs parmi vous savent probablement que ce n'est pas exactement « nouveau ». Une autre application presque identique de l'IA agentique est l'opérateur identique de Chatgpt, actuellement disponible uniquement sur le niveau de 200 $ / mois du chatbot.
Comme l'implémentation d'Opera, les Chatgpt peuvent parcourir le Web et effectuer des actions sur le Web pour vous. Mais il y a une différence clé, et c'est le fait que Chatgpt s'exécute sur un serveur distant, tandis que l'opéra s'exécute directement dans votre navigateur, avec les mêmes cookies et les mêmes données que vous avez déjà – et la société dit que ces données ne quittent jamais votre navigateur pendant que vous utilisez cela, non plus.
En rapport
«L'opérateur» de Chatgpt parcourt le Web pour vous
Ne vous attendez pas à des miracles.
Il convient de noter que l'implémentation de Chatgpt a également tendance à gâcher beaucoup. La meilleure façon de faire fonctionner ce type d'agents est probablement de les former sur des sites Web spécifiques, c'est pourquoi des programmes pilotes tels que les fonctionnalités Amazon Buy pour moi ou les actions de Microsoft Copilot ne fonctionnent qu'avec une poignée de sites Web à l'époque. Je suppose que l'objectif éventuel est de tout mettre dans le même mode de mode « Catch-All » et l'opéra que l'opéra utilise actuellement, mais si vous autorisez les fonctionnalités complètes dès le départ, il est beaucoup plus facile de percer des trous dedans.
L'IA agentique est également un terme assez large. L'IA agentique n'est que l'IA qui peut prendre de manière autonome des décisions et effectuer des tâches sans nécessairement nécessiter une intervention des utilisateurs. Après avoir établi cela, nous avons également des applications d'IA agentiques différentes sans fin – « les opérateurs » qui peuvent effectuer des tâches pour vous au sein d'un navigateur ne sont qu'un type d'IA agentique. C'est aussi ce que je voulais dire au début de l'article quand j'ai dit que cela allait la même route gimmicky que d'autres IA ont continué – une partie de celle-ci est utile, mais une grande partie n'est pas quelque chose que les gens utiliseront plus d'une ou deux fois.
Il existe également des moyens d'exécuter des modèles d'IA locaux qui peuvent également effectuer des actions autonomes, comme avec n'importe quoi. Pourtant, la grande majorité des gens n'iront probablement pas jusqu'à installer un LLM local sur leur ordinateur ou leur smartphone, donc c'est probablement un bon point central.
En rapport
L'IA agentique est la prochaine grande chose mais je ne suis pas sûr que ce soit ce que je veux
L'IA peut agir pour nous, mais devrions-nous le laisser?
Cela en vaut-il vraiment la peine?
Qu'il en soit «la peine» ou non dépendra de la façon dont la mise en œuvre finale de cette fonctionnalité finit par ressembler. Après tout, tout ce que nous avons maintenant, ce sont des prototypes. Opera ne s'est pas engagé dans un délai de sortie spécifique pour cela pour l'instant – même s'il pourrait être publié au cours des prochains mois, il est clair qu'il a encore besoin de temps dans le four. Mais je pense que cela peut devenir quelque chose que les gens utiliseront quotidiennement.
Dans une mise en œuvre plus rapide et plus précise de cela, vous pourriez avoir une lutte d'opérateur avec un site Web de billets de concert pour obtenir des billets de concert à des prix de vente réguliers, ou une personne âgée pourrait en utiliser une pour effectuer des tâches qu'ils ne savaient pas comment faire elles-mêmes. Bien sûr, cela dépend de son amélioration.
Je crois que cela a le potentiel de devenir un outil réellement utile s'il est développé correctement, et je n'exclurais pas d'autres navigateurs – du moins certains des joueurs mineurs – en train de mettre en œuvre une version de cela à l'avenir. Je ne dirais pas que cela change la donne pour moi, au moins dans son implémentation actuelle. Il ne fait rien de plus rapide que je le ferais moi-même, et si quoi que ce soit, je passerais plus de temps à passer les accrocs fréquents qu'il frapperait. Mais il a un potentiel. Espérons que, au moment où il est réellement sorti, c'est un produit plus poli.