Name: Tremplin Numérique
Price range: $$$

Meta a publié Llama 3.3 70B, une version modifiée du modèle d'IA le plus puissant de l'entreprise qui peut être téléchargée pour fonctionner sur votre propre matériel. Cependant, votre PC n’est probablement pas prêt pour cela.

Comme beaucoup d'autres grands modèles de langage (LLM), le modèle d'IA générative Llama de Meta est disponible en plusieurs tailles de paramètres pour différents cas d'utilisation. Par exemple, le plus petit modèle Llama 3.2 1B peut gérer des tâches de base avec des performances rapides sur un smartphone moyen, tandis que les versions plus grandes 11B et 90B sont plus puissantes et nécessitent des PC et des serveurs haut de gamme. Les modèles Llama sont principalement destinés aux fonctionnalités de texte et de chat, mais certaines versions peuvent également comprendre les images.

Le nouveau modèle Llama 3.3 70B de Meta est censé offrir les mêmes performances que le plus grand modèle de l'entreprise, la version 405B, mais avec la possibilité de fonctionner sur plus de PC et de serveurs. Le vice-président de l'IA générative de Meta a déclaré dans un article sur les réseaux sociaux : « En tirant parti des dernières avancées en matière de techniques post-formation, notamment l'optimisation des préférences en ligne, ce modèle améliore les performances de base à un coût nettement inférieur. »

Même si ce nouveau modèle 70B est considérablement réduit par rapport à la version 405B d'origine, vous aurez toujours besoin d'un PC ou d'un serveur puissant pour l'exécuter localement avec des performances acceptables. La taille du fichier est de 37,14 Go et les LLM doivent généralement tenir dans la RAM pour fonctionner correctement. Vous aurez donc probablement besoin d'une machine avec 64 Go de RAM. Vous auriez également besoin d’un GPU puissant (ou de plusieurs couplés) pour exécuter le modèle.

La description du modèle explique : « Llama 3.3 est destiné à un usage commercial et de recherche dans plusieurs langues. Les modèles de texte uniquement adaptés aux instructions sont destinés à un chat de type assistant, tandis que les modèles pré-entraînés peuvent être adaptés à une variété de tâches de génération de langage naturel. Le modèle Llama 3.3 prend également en charge la possibilité d'exploiter les résultats de ses modèles pour améliorer d'autres modèles, notamment la génération et la distillation de données synthétiques.

Même si Llama 3.3 70B ne fonctionne pas sur la plupart des matériels informatiques, vous pouvez exécuter les plus petits 1B, 3B et 8B sur de nombreux ordinateurs de bureau et portables avec des applications comme LM Studio ou Chat With RTX de Nvidia. Mon Mac Mini M1 de 16 Go exécute Llama 3.1 8B à des vitesses similaires à celles des chatbots IA basés sur le cloud, mais j'utilise des modèles 3B plus petits avec mon MacBook Air de 8 Go, car j'ai moins de RAM disponible.

Vous pouvez télécharger Llama 3.3 70B et les autres modèles Lama depuis le site Web de Meta, Hugging Face, la recherche intégrée dans LM Studio et d'autres référentiels.