Name: Tremplin Numérique
Price range: $$$

Nous avons tous entendu les avertissements: « Ne faites pas confiance à tout ce qui dit! » Mais à quel point les moteurs de recherche IA sont inexacts vraiment? Les gens du Tow Center for Digital Journalism ont mis huit moteurs de recherche d'IA populaires à travers des tests complets, et les résultats sont stupéfiants.

Sommaire

Comment les tests ont été effectués

Avant tout, parlons de la façon dont le centre de remorquage a placé ces moteurs de recherche AI à travers la sonnerie. Les huit chatbots de l'étude comprenaient des modèles gratuits et premium avec des fonctionnalités de recherche en direct (capacité d'accéder à Internet en direct):

Recherche de chatpt
Perplexité
Perplexity pro
Recherche en profondeur
Microsoft Copilot
Recherche Grok-2
Recherche Grok-3
Google Gemini

Cette étude concernait principalement la capacité d'AI Chatbot à récupérer et à citer le contenu d'actualité avec précision. Le centre de remorquage voulait également voir comment les chatbots se comportaient lorsqu'ils ne pouvaient pas effectuer la commande demandée.

Pour mettre tout cela à l'épreuve, 10 articles de 10 éditeurs différents ont été sélectionnés. Des extraits de chaque article ont ensuite été sélectionnés et fournis à chaque chatbot. Ensuite, ils ont demandé au chatbot de faire des choses simples comme identifier le titre de l'article, l'éditeur original, la date de publication et l'URL.

Voici une illustration de ce à quoi cela ressemblait.

Les réponses du chatbot ont ensuite été placées dans l'un des six seaux:

Correct: Les trois attributs étaient corrects.
Correct mais incomplet: Certains attributs étaient corrects, mais la réponse manquait d'informations.
Partiellement incorrect: Certains attributs étaient corrects, tandis que d'autres étaient incorrects.
Complètement incorrect: Les trois attributs étaient incorrects et / ou manquants.
Non fourni: Aucune information n'a été fournie.
Crawler bloqué: L'éditeur interdit le robot du chatbot dans ses robots.txt.

Pas seulement mal, «en toute confiance» mal

Comme vous le verrez, les moteurs de recherche d'IA se trompent le plus souvent, mais le problème sans doute plus important est comment Ils avaient tort. Quelle que soit la précision, les chatbots répondent presque toujours avec confiance. L'étude a révélé qu'ils utilisent rarement des phrases qualifiées telles que «c'est possible» ou admettent ne pas pouvoir exécuter la commande.

Le graphique ci-dessus montre la précision des réponses ainsi que la confiance dans laquelle ils ont été donnés. Comme vous pouvez le voir, presque toutes les réponses sont dans la zone «confiante», mais il y a beaucoup de rouge.

Grok-3, par exemple, a rendu un énorme 76% de ses réponses «en toute confiance incorrecte» ou «partiellement incorrecte». Gardez à l'esprit que GROK-3 est un modèle premium qui coûte 40 $ par mois, et il a permis de faire pire que son homologue GROK-2 gratuit.

La même chose peut être vue avec Perplexity Pro vs Perplexity. Payer pour un modèle premium – 20 $ par mois dans le cas de Perplexity Pro – n'améliore pas nécessairement la précision, mais il semble plus confiant de se tromper.

Les offres de licence et l'accès bloqué n'ont pas d'importance

Certains moteurs de recherche d'IA ont des accords de licence qui leur permettent d'accéder à des publications spécifiques. Vous supposeriez que les chatbots seraient excellents pour identifier avec précision les informations de ces publications, mais ce n'était pas toujours vrai.

Le graphique ci-dessous montre les huit chatbots et un éditeur avec lesquels ils ont un accord de licence. Pour rappel, ils ont été invités à identifier le titre de l'article, l'éditeur original, la date de publication et l'URL. La plupart des chatbots ont pu le faire avec un niveau élevé de précision, mais certains ont échoué. La recherche de Chatgpt, par exemple, était erronée 90% du temps lors de la gestion du San Francisco Chronicle, une publication avec laquelle il a un partenariat.

D'un autre côté, certaines publications ont bloqué l'accès à leur contenu à partir des moteurs de recherche d'IA. Cependant, l'étude a montré qu'elle ne fonctionnait pas toujours dans la pratique. Quelques-uns des moteurs de recherche ne semblaient pas respecter les blocs.

La perplexité, par exemple, a pu identifier avec précision les 10 citations de National Geographic, bien qu'elle soit des clairs payants et bloquant les robots. Mais ce n'est que sur les bonnes réponses. Encore plus de chatbots ont non seulement accédé aux sites Web bloqués, mais leur a fourni des informations inexactes. Grok et Deepseek ne sont pas montrés dans le graphique car ils ne divulguent pas leurs robots.

Alors, qu'est-ce que tout cela signifie pour vous? Eh bien, il est clair que le fait de s'appuyer uniquement sur la précision des moteurs de recherche d'IA est une proposition risquée. Même les modèles premium avec des accords de licence peuvent cracher en toute confiance une désinformation. C'est un rappel brutal que la pensée critique et la référencement restent des compétences essentielles à l'ère de l'IA.

Assurez-vous de consulter l'étude complète à la Columbia Journalism Review pour des résultats plus fascinants (et alarmants).