La perplexité est problématique, mais ça pourrait aller
Sommaire
Points clés à retenir
- Perplexity AI est accusé d'avoir contourné les instructions robot.txt sur les sites Web.
- L'étude BrightEdge montre que Perplexity est tout aussi efficace, voire meilleur, que Google pour renvoyer les gens vers des sites pertinents.
- La fonctionnalité de Perplexity permet de partager des informations derrière des paywalls, ce qui nécessite un compromis pour garantir des pratiques équitables.
J'ai dit à plusieurs reprises que je pense que Perplexity est le meilleur chatbot IA du moment, en particulier pour la recherche. J'avoue que je suis partial en ce qui concerne l'éthique complexe de l'IA parce que je veux la voir réussir. La perplexité a donné lieu à son lot d'accusations, mais une étude récemment publiée me redonne l'espoir que tout s'arrangera.
Le problème du fichier Robot.txt
Presque tous les chatbots IA sont accusés de consommer de grandes quantités d’eau et d’électricité ou font l’objet d’un examen minutieux sur la manière dont ils collectent les données pour entraîner le modèle. Les accusations de Perplexity AI sont un peu plus spécifiques que ces arguments généralisés.
De nombreux sites Web contiennent une instruction, robot.txt, dans le code qui indique à l'IA, aux robots ou à d'autres robots d'exploration Web de ne pas aller plus loin. Ignorer cet ordre n’est pas forcément illégal, mais cet ordre est plus ou moins suivi depuis les années 90. Perplexity a été accusé d'avoir contourné (ou d'avoir utilisé des robots tiers qui contournent) l'instruction robot.txt pour obtenir leurs informations.
Peut-être que cette pratique consistant à ne rien négliger est en partie la raison pour laquelle les résultats de Perplexity sont si bons. Cependant, il arrive parfois que l'instruction robot.txt protège les informations derrière un paywall ou sur un site qui attend des utilisateurs qu'ils s'inscrivent et paient pour y accéder. En l'ignorant, les informations sont incluses dans les résultats de Perplexity prétendument derrière ces paywalls. Les grands éditeurs contestent évidemment ces pratiques.
L'étude BrightEdge
Les éditeurs Web et les spécialistes du marketing Internet ont collectivement investi des millions de dollars dans la recherche de moyens d'être découverts ou suggérés aux consommateurs par Google ou d'autres moteurs de recherche Web. Les chiffres sont importants, mais il ne s’agit pas seulement de présenter le contenu au plus grand nombre. Il s'agit de se mettre devant le droite personnes.
Une personne recherchant une liste de jeux sur console pourrait être intéressée par d'autres informations sur les jeux, mais il est peu probable qu'elle soit intéressée par un article sur les poissons d'aquarium. Les sites Web appartenant à de petits concessionnaires automobiles privés voudront peut-être figurer dans la liste des résultats de la recherche « concessionnaires automobiles à proximité de chez moi », mais un concessionnaire automobile de Virginie ne bénéficierait probablement pas d'un clic d'un utilisateur californien. Au début de cette dernière révolution de l’IA, il n’était pas clair si les pratiques de marketing Internet existantes survivraient face aux moteurs de recherche IA comme Perplexity.
Même si les gens ne commencent pas leur recherche dans des chatbots IA comme SearchGPT ou Perplexity, ils reçoivent souvent un résultat de présentation de l'IA de Google ou Bing, qui répertorie ses propres sources. L’une des raisons pour lesquelles les éditeurs Web sont extrêmement vigilants à l’égard des pratiques des sociétés d’IA ne se limite pas au simple signalement de contenus prétendument volés. Il s'agit de savoir qui peut diriger le trafic Web sur Internet et de savoir exactement où va le trafic Web.
C'est là qu'intervient l'étude BrightEdge. BrightEdge produit des données que les éditeurs utilisent pour déterminer comment présenter le contenu aux consommateurs cibles. En avril, BrightEdge a publié une étude montrant que Perplexity est aussi efficace, voire meilleur, que Google pour renvoyer les gens vers des sites correspondant à leurs termes de recherche. C'est une excellente nouvelle pour tout le monde !
Les consommateurs savaient déjà que Perplexity donnait d’excellents résultats ! Cependant, nous en avons désormais la preuve. Les consommateurs cliquent sur les résultats de Perplexity directement vers les sources répertoriées. J'espère que les éditeurs Web pourront se détendre un peu, sachant que Perplexity leur apporte autant, voire plus de trafic que Google.
Ne pouvons-nous pas tous nous entendre ?
Reste le problème des paywalls. La fonctionnalité Pages de Perplexity permet aux utilisateurs de publier leurs résultats dans un rapport magnifiquement formaté et partageable sur la plateforme de Perplexity (non disponible sur Perplexity). Cela signifie que les utilisateurs peuvent voir les informations normalement cachées derrière le paywall d'un éditeur de contenu, récupérant parfois des articles entiers textuellement et les partageant. Même si les sources sont toujours créditées sur Pages, je crains que cela ne soit tout simplement pas toléré.
Même si les éditeurs affirment que le problème est que Perplexity contourne le fichier robot.txt, ce code n'est pas exclusivement utilisé uniquement pour les paywalls. En fait, à la lumière de l'étude BrightEdge, enfreindre cette « règle » revient à faire gagner de l'argent à tout le monde en dirigeant le trafic directement de Perplexity vers le contenu qu'il souhaite. Le problème, c’est quand il contourne les paywalls. Dans ce cas, l’utilisateur pourrait éviter le site et donc éviter de payer pour ce contenu.
Je ne suis pas un négociateur en otages, mais il semble qu'il y ait de la place pour un compromis ici. Peut-être que Perplexity devrait être autorisé à renvoyer un flux constant de trafic Web quelle que soit l'instruction robot.txt tant qu'il ne passe pas derrière des paywalls. L’IA ne va nulle part et rien ne l’a ralentie jusqu’à présent. Des réglementations intelligentes et des compromis raisonnables pourraient rendre la route moins cahoteuse.