J'ai chargé cinq modèles d'IA de pointe avec la rédaction d'un rapport de recherche, et les résultats m'ont surpris
L'IA est partout aujourd'hui, plusieurs modèles sont tous présentés comme étant extrêmement capables et utiles. Pour moi, cela signifie que l'IA fait des recherches sur des sujets complexes, me faisant gagner des heures par jour. Mais j'ai accès à plusieurs modèles, et je ne peux pas m'empêcher de me demander: lequel vaut votre confiance?
Sommaire
Utilisation d'une IA pour la recherche
L'une des choses les plus utiles de l'IA pour la personne moyenne est la possibilité de la faire rechercher sur Internet une tonne d'informations en un rien de temps. Des trucs qui pourraient vous prendre des heures pour enquêter et découvrir peuvent être localisés et compilés dans un résumé rapide d'un modèle d'IA en moins d'une minute. En surface, il peut sembler que tous ces différents modèles d'IA sont effectivement les mêmes et ont simplement des noms différents et des entreprises différentes qui les financent.
Mais j'ai passé beaucoup de temps à travailler avec différents modèles d'IA, à les former, à les tester, à les améliorer; Ils ont leurs forces et leurs faiblesses, et si vous cherchez à payer un abonnement à un modèle d'IA particulier, mon expérience avec eux pourrait vous être utile. J'ai testé une variété de modèles avancés différents, et je vais partager mes résultats avec vous tous. Pour effectuer ce test, chaque modèle a reçu exactement la même invite:
« Veuillez me fournir un rapport de recherche détaillant les avantages potentiels des États-Unis qui se convertissent entièrement en sources d'énergie renouvelables, y compris la faisabilité, les avantages économiques et écosystémiques, le coût de mise en œuvre et les obstacles potentiels à une conversion complète. Veuillez inclure des tableaux, le cas échéant, pour soutenir votre rapport et fournir des sources pour toutes les déclarations factuelles. »
Cette invite a été soumise à cinq modèles de pointe différents: Claude Opus 4, Gemini 2.5 Pro, Grok 3, Meta Llama 4 Maverick et Chat GPT-4.1. Quant à la façon dont ils sont classés, j'ai regardé quelques choses:
-
Le modèle a-t-il demandé plus de détails avant de tenter de répondre à ma demande?
-
Combien de sources le modèle a-t-il fourni et quelle était la qualité et la fiabilité de ces sources?
-
Dans quelle mesure les aides visuels étaient-ils robustes fournis par le modèle?
-
En l'absence de contraintes de longueur spécifiées, combien de temps et complexe le rapport de recherche a-t-il été fourni?
-
Les informations fournies ont-elles été exactes et correctement détaillées?
Maintenant, il convient de noter qu'il existe des modèles d'IA spécialisés pour différents types de tâches, et aucun de ceux que je teste ici aujourd'hui ne sont le «type de recherche en profondeur». Cependant, je pense que c'est approprié, car la plupart des utilisateurs moyens vont monter sur le modèle d'IA le plus courant qu'ils peuvent trouver et demander sans traquer l'option la plus spécialisée. Ces modèles d'IA sont parmi les plus couramment utilisés, c'est pourquoi ces résultats sont intéressants.
Claude Opus 4: Grand potentiel limité en manquant de capacité
Malheureusement, Claude Opus 4 a tout de suite pris un départ difficile. Il s'agit d'un modèle qui possède un niveau plus élevé de «pensée» que vous pouvez éteindre et allumer. Il a la capacité de raisonner, ce qui peut lui permettre de répondre à des questions plus complexes avec plus de profondeur. Naturellement, j'ai activé ce mode de raisonnement pour mon invite de recherche. Le problème? Le modèle continuait de se réfléchir dans des impasses. Il obtiendrait partiellement le rapport, puis sortira une erreur au lieu du produit final que je voulais. Cela s'est produit plusieurs fois de suite.
Il semblait que ma demande était tout simplement trop complexe pour cela. Mais après la troisième tentative, Claude Opus 4 a finalement réussi à publier le rapport de recherche que j'avais demandé. Ou du moins, en partie. Il a réussi à couvrir une grande partie de ce que j'ai demandé en détail: le paysage énergétique actuel des États-Unis, une évaluation de faisabilité, des coûts de mise en œuvre, des avantages économiques et des écosystèmes, mais il s'est arrêté complet lors de l'analyse coûts-avantages, environ 2/3 du rapport.
Inutile de dire que c'est vraiment mauvais. Le modèle n'a pas fini de me fournir ce que j'ai demandé, ce qui est le strict minimum que vous attendez. Le pire est que les parties du rapport que j'ai réellement obtenues étaient très bonnes. Il ne m'a pas posé de questions clarifiant, mais il a fourni un résumé de l'ensemble de l'ensemble du rapport au début. Il a fourni un tableau dans presque toutes les sections du rapport, et il est devenu incroyablement détaillé sur les sources, fournissant souvent une source pour chaque numéro dans un tableau, tous dans des endroits réputés comme les agences gouvernementales et les études universitaires professionnelles.
Pourtant, rien de tout cela n'a vraiment d'importance si le modèle ne peut pas réellement finir de me donner le rapport, donc Claude Opus 4 obtient une note défaillante ici. C'est une vraie dommage, car dans l'ensemble, Claude est l'un de mes modèles préférés depuis que je suis passé de GPT, mais il semble être meilleur dans des tâches plus créatives.
Gemini 2.5 Pro: manque de profondeur pour sa longueur
Dans l'ensemble, Gemini 2.5 Pro a bien fonctionné. Il n'a posé aucune question de clarification, mais elle comprenait un résumé de l'exécutif et une conclusion dans le rapport. Il a utilisé 12 sources de haute qualité, y compris des rapports du National Renewable Energy Laboratory, du Département américain de l'Énergie et de l'International Renewable Energy Agency, bien qu'il convienne de noter qu'aucune de ces sources n'était plus récente que 2022. Il avait cinq tables, bien que certaines d'entre elles n'étaient un peu clairsemées sur les données et n'apportaient pas beaucoup de valeur.
Le rapport était une durée moyenne d'environ 1 300 mots, ce qui n'est pas tout à fait aussi longtemps que je voudrais un rapport de recherche détaillé, mais mieux que certains de ses concurrents. Malheureusement, le modèle d'IA a rompu le rapport en trop de pièces de la taille d'une bouchée, certaines sections ayant simplement une ou deux phrases. Parfois, une section offrait une vague déclaration ou estimation, mais n'incluait aucun nombre réel ou information exploitable.
Il a techniquement parlé de tout ce que je demandais, mais cela ressemblait plus à un grand résumé d'un rapport qu'un véritable rapport lui-même. Avec un peu de raffinement de l'invite et de quelques contraintes supplémentaires, je pouvais voir Gemini 2.5 Pro faire mieux dans ce test, mais en ce qui concerne le moment, il semblait juste en moyenne dans l'ensemble. Heureusement, il est plus capable dans certains autres domaines dans lesquels Google l'a poussé.
Grok 3: Sources abondantes et excellentes informations citant
À ce stade du test, j'ai remarqué qu'aucun de ces modèles d'IA n'était très désireux de poser des questions de clarification sur ma demande, y compris Grok 3. Bien que ce soit un peu une déception, Grok m'a impressionné par d'autres moyens, à savoir le nombre de sources approuvées et fiables qu'elle a utilisées pour ses recherches, ainsi que la manière propre les citées tout en fournissant des faits et des estimations tout au long du rapport. Gemini 2.5 Pro n'a utilisé que 12 sources pour son rapport. Grok 3 a utilisé 21 et a également réussi à en tirer de 2023.
Il a extrêmement bien exploité ces sources tout au long du rapport. Chacune des tables étonnamment robustes et détaillées avait cité des sources pour leurs données, et presque toutes les déclarations factuelles et l'estimation des données avaient également une source citée, même si c'était pour une seule phrase. Cela a rendu extrêmement facile de vérifier l'exactitude de chaque déclaration et de savoir où chercher si je voulais trouver plus d'informations sur tout détail du modèle présenté dans le rapport.
Le rapport était également assez étendu à environ 2 000 mots. Bien qu'il y ait eu quelques petites sections où Grok 3 aurait pu aller plus en détail, dans l'ensemble, il a fourni de nombreux chiffres exacts, des explications détaillées et, surtout, les nombreuses sources académiques et gouvernementales qui ont été intégrées dans le rapport plus complètement que ses concurrents. Il semble que Grok soit en fait un modèle AI bien nommé.
Malheureusement pour Meta, leur modèle Llama 4 Maverick a eu beaucoup de problèmes avec ma demande de rapport détaillé sur les énergies renouvelables. Pour commencer, le rapport lui-même était absurdement court à 800 mots maigres, et c'est avec une certaine redondance dont il n'avait vraiment pas besoin. Non seulement il y a eu un résumé et une conclusion qui ont tous deux couvert les mêmes détails, mais le modèle lui-même a même fait un paragraphe après avoir fait de ce qui m'a fait savoir de quoi il s'agissait et a réalisé le rapport.
Les tables fournies étaient souvent rares dans les données, et certaines sections de rapport offraient des déclarations assez inutiles qui manquaient de données concrètes, telles que « la réalisation d'une grille renouvelable à 100% nécessite des progrès importants dans le stockage d'énergie (par exemple, les batteries, l'hydroélectricité pompée) et la flexibilité de la grille ». Il s'agissait de la seule phrase dans la section « Intégration du réseau et stockage d'énergie » du rapport, et il n'a même pas offert de numéros de béton. J'ai dû entrer dans la source moi-même pour aller trouver les chiffres, qui ont vaincu le point de demander à l'IA de faire cela pour moi en premier lieu.
En plus de tout cela, le rapport avait plus de puces et de listes que toute autre chose, et bien qu'il ait utilisé des sources réputées, le modèle n'en comprenait que 8, nettement moins que tous ses concurrents. Dans l'ensemble, Meta Llama Maverick 4 a effectué le pire de ce test dans plusieurs mesures, ce qui m'a surpris, car il a fallu tout aussi longtemps pour compiler sa réponse que tous les autres modèles. Meta Ai peut être utile, mais clairement, ce type de tâche n'est pas sa combinaison solide.
Chat GPT 4.1: Barebones et insatisfaisant
J'ai été honnêtement surpris de voir à quel point le chat terne GPT 4.1 était dans ce test. Ceci si le modèle GPT phare, et pourtant le rapport final était d'environ 800 mots, tout comme Meta's Maverick. D'une manière ou d'une autre, GPT 4.1 a fait encore pire, me fournissant une expérience vraiment nue. Deux de ses quatre tableaux fournis disposaient de deux lignes de données ou moins, fournissant si peu d'informations qu'elles peuvent aussi bien y avoir été.
La majeure partie du rapport n'était que des listes de points avec des déclarations génériques et peu de données les sauvegardant. La section la plus « détaillée » de l'ensemble du rapport était une avec trois puces et 70 mots d'informations. Bien que le modèle utilise des sources réputées comme l'Institut de recherche sur l'économie politique, l'Université de Princeton et l'Environmental Protection Agency, elle n'a fourni que les informations au niveau de la surface de l'un de ces articles cités, ce qui m'a obligé à aller faire la recherche moi-même de toute façon pour apprendre quelque chose de vraiment utile.
À tout le moins, les informations que le modèle a fournies était exacte, mais à la fin de la journée, il manquait de profondeur significative. C'était de loin le moins satisfaisant des modèles testés. Peut-être que le chat GPT est mieux adapté aux autres tâches.
En ce qui concerne l'IA, il est venu ces dernières années, il est évidemment encore loin de parfait. J'ai été surpris d'apprendre que Grok 3 a fait le meilleur de tous les modèles que j'ai testés, mais certes, Claude Opus 4 a peut-être fait encore mieux s'il avait réellement réussi à terminer la tâche assignée. Vous ne pouvez pas utiliser ces modèles d'IA pour des projets de recherche profonds, mais leurs performances ici sont un indicateur de leur qualité générale de sortie et de la façon dont ils ont été formés, ce qui affecte toutes les tâches et demandes assignées.
Cela dit, ce test a rendu une chose évidente; Si vous recherchez une IA qui peut vous aider avec des tâches incroyablement complexes et compliquées qui les obligent à compiler des informations précises à partir du Web, vous voudrez peut-être examiner les modèles d'IA avec des modes de recherche profonds dédiés ou des capacités de pensée complexes plus avancées.
