Name: Tremplin Numérique
Price range: $$$

La startup chinoise DeepSeek a surpris les plus grands acteurs de la Silicon Valley avec son nouveau chatbot IA qui rivalise avec les performances du ChatGPT d'OpenAI tout en coûtant beaucoup moins cher à développer.

Au moment d'écrire ces lignes, DeepSeek a dépassé ChatGPT sur l'App Store d'Apple en tant qu'application gratuite la plus téléchargée aux États-Unis, au Royaume-Uni, en Chine et dans plusieurs autres pays. Il fonctionne comme un chatbot classique : vous saisissez une requête et son modèle open source génère une réponse. Le modèle DeepSeek-V3 sous-jacent comporte 671 milliards de paramètres, permettant à l’application de « réfléchir » avant de résoudre le problème.

Contrairement au modèle d'OpenAI, qui ne peut fonctionner que sur ses propres serveurs, DeepSeek peut fonctionner localement sur des ordinateurs plus puissants et de nombreux serveurs accélérés par GPU. La société affirme que son modèle correspond au modèle o1 d'OpenAI sur des critères spécifiques. Contrairement à de nombreux autres chatbots IA, DeepSeek montre également de manière transparente son raisonnement et la manière dont il a obtenu une réponse. Cependant, en tant qu'application chinoise, DeepSeek censure certains sujets tels que la place Tiananmen.

L'application, lancée le 20 janvier, est également disponible sur le Play Store de Google. DeepSeek doit sa soudaine popularité à sa capacité à faire correspondre ou à surpasser des modèles d’IA établis. Son document de recherche, publié lundi, révèle à quel point la formation DeepSeek-V3 est rentable.

Bien que ses affirmations n'aient pas encore été vérifiées, DeepSeek n'a apparemment utilisé que 2 048 puces Nvidia H800 spécialisées pour entraîner R1, contre plus de 16 000 puces Nvidia pour entraîner les principaux modèles d'OpenAI. DeepSeek affirme que la réduction drastique du nombre de GPU de pointe requis pour la formation en IA lui a permis de dépenser seulement 5,6 millions de dollars pour former R1. Comparez cela avec OpenAI, qui a dépensé plus de 100 millions de dollars pour former son modèle GPT-4 de taille comparable. Cependant, la société n'a pas quantifié la consommation d'énergie de DeepSeek par rapport à ses concurrents.

R1 lui-même est basé sur le grand modèle de langage (LLM) V3 de DeepSeek, qui, selon la société, correspond au GPT-4o d'OpenAI et à Claude 3.5 Sonnet d'Anthropic. Les réalisations de DeepSeek sont particulièrement impressionnantes à la lumière des sanctions commerciales imposées par le gouvernement américain sur les puces Nvidia sophistiquées utilisées pour la formation en IA. Alors que les plus grands acteurs de l'IA comme Nvidia, OpenAI, Meta et Microsoft dépensent des milliards pour leurs centres de données d'IA, nous allons voir cette semaine de nombreux titres remettant en question l'avance américaine en matière d'IA.

Il sera fascinant de voir comment la percée de DeepSeek affecte le projet Stargate d'un milliard de dollars de l'administration Trump, soutenu par OpenAI, Softbank et Oracle, dans le but d'investir 500 milliards de dollars dans la construction de nouvelles infrastructures d'IA et de centres de données pour OpenAI au cours des quatre prochaines années. Les choses vont être particulièrement intéressantes à mesure que OpenAI passe d’une organisation à but non lucratif à une organisation à but lucratif, car DeepSeek a rendu ses modèles d’IA open source.

Meta a également rendu open source certains aspects de sa technologie d'IA, comme le Lama LLM. Pourtant, DeepSeek est un petit nouveau dont tout le monde parle, et le fait que les développeurs puissent librement s'appuyer sur la technologie de DeepSeek peut donner à OpenAI une chance pour son argent.