by Hannah Apr 07,2025
Ces dernières années, le champ d'IA a été captivé par le succès des modèles de grande langue (LLM). Initialement conçus pour le traitement du langage naturel, ces modèles sont devenus des outils de raisonnement puissants capables de résoudre des problèmes complexes avec un processus de réflexion étape par étape de type humain. Cependant, malgré leurs capacités de raisonnement exceptionnelles, les LLM sont livrées avec des inconvénients importants, y compris des coûts de calcul élevés et des vitesses de déploiement lents, ce qui les rend peu pratiques pour une utilisation réelle dans des environnements limités aux ressources comme les appareils mobiles ou l'informatique Edge. Cela a conduit à un intérêt croissant pour développer des modèles plus petits et plus efficaces qui peuvent offrir des capacités de raisonnement similaires tout en minimisant les coûts et les demandes de ressources. Cet article explore la montée en puissance de ces petits modèles de raisonnement, leur potentiel, leurs défis et leurs implications pour l'avenir de l'IA.
Pour une grande partie de l'histoire récente de l'IA, le domaine a suivi le principe des «lois sur l'échelle», ce qui suggère que les performances du modèle s'améliorent de manière prévisible en tant que données, puissance de calcul et augmentation de la taille du modèle. Bien que cette approche ait donné des modèles puissants, il a également entraîné des compromis importants, notamment des coûts d'infrastructure élevés, des impact environnemental et des problèmes de latence. Toutes les applications ne nécessitent pas toutes les capacités de modèles massifs avec des centaines de milliards de paramètres. Dans de nombreux cas pratiques, tels que les assistants, les soins de santé et l'éducation sur les appareils à disposition - les modèles plus malleurs peuvent obtenir des résultats similaires s'ils peuvent raisonner efficacement.
Le raisonnement dans l'IA fait référence à la capacité d'un modèle à suivre les chaînes logiques, à comprendre la cause et à effet, à déduire les implications, à planifier les étapes dans un processus et à identifier les contradictions. Pour les modèles de langage, cela signifie souvent non seulement la récupération d'informations mais aussi la manipulation et la déduction des informations grâce à une approche structurée et étape par étape. Ce niveau de raisonnement est généralement atteint par des LLM à réglage fin pour effectuer un raisonnement en plusieurs étapes avant d'arriver à une réponse. Bien qu'ils soient efficaces, ces méthodes exigent des ressources informatiques importantes et peuvent être lentes et coûteuses à déploier, ce qui fait valoir leurs préoccupations concernant leur accessibilité et leur impact environnemental.
Les petits modèles de raisonnement visent à reproduire les capacités de raisonnement des grands modèles mais avec une plus grande efficacité en termes de puissance de calcul, d'utilisation de la mémoire et de latence. Ces modèles utilisent souvent une technique appelée Distillation des connaissances, où un modèle plus petit (l'élève ") apprend d'un modèle plus grand et pré-formé (le" professeur "). Le processus de distillation consiste à former le modèle plus petit sur les données générées par la plus grande, dans le but de transférer la capacité de raisonnement. Le modèle étudiant est ensuite affiné pour améliorer ses performances. Dans certains cas, l'apprentissage du renforcement avec des fonctions de récompense spécialisés spécialisés du domaine est appliqué pour améliorer davantage la capacité du modèle à effectuer un raisonnement spécifique à la tâche.
Une étape notable dans le développement de petits modèles de raisonnement est venue avec la sortie de Deepseek-R1. Bien qu'il ait été formé sur un groupe relativement modeste de GPU plus anciens, Deepseek-R1 a atteint des performances comparables à des modèles plus grands comme O1 d'OpenAI sur les références telles que MMLU et GSM-8K. Cette réalisation a conduit à un réexamen de l'approche de mise à l'échelle traditionnelle, qui supposait que les modèles plus grands étaient intrinsèquement supérieurs.
Le succès de Deepseek-R1 peut être attribué à son processus de formation innovant, qui combinait l'apprentissage par renforcement à grande échelle sans compter sur un réglage fin supervisé dans les premières phases. Cette innovation a conduit à la création de Deepseek-R1-Zero, un modèle qui a démontré des capacités de raisonnement impressionnantes par rapport aux grands modèles de raisonnement. D'autres améliorations, telles que l'utilisation de données de démarrage à froid, ont amélioré la cohérence et l'exécution des tâches du modèle, en particulier dans des domaines comme les mathématiques et le code.
De plus, les techniques de distillation se sont révélées cruciales pour développer des modèles plus petits et plus efficaces de plus grands. Par exemple, Deepseek a publié des versions distillées de ses modèles, avec des tailles allant de 1,5 milliard à 70 milliards de paramètres. En utilisant ces modèles, les chercheurs ont formé un modèle beaucoup plus petit, Deepseek-R1-Distill-QWEN-32B, qui a surpassé O1-MINI d'OpenAI à divers benchmarks. Ces modèles sont désormais déployables avec du matériel standard, ce qui en fait une option plus viable pour un large éventail d'applications.
Pour évaluer si les petits modèles de raisonnement (SRM) peuvent correspondre à la puissance de raisonnement des grands modèles (LRM) comme GPT, il est important d'évaluer leurs performances sur des références standard. Par exemple, le modèle Deepseek-R1 a obtenu environ 0,844 sur le test MMLU, comparable à des modèles plus grands tels que O1. Sur l'ensemble de données GSM-8K, qui se concentre sur les mathématiques scolaires, le modèle distillé de Deepseek-R1 a atteint des performances de niveau supérieur, dépassant à la fois O1 et O1-MINI.
Dans les tâches de codage, telles que celles de LivecodeBench et CodeForces, les modèles distillés de Deepseek-R1 ont effectué de la même manière que O1-MINI et GPT-4O, démontrant de solides capacités de raisonnement dans la programmation. Cependant, les modèles plus grands ont encore un avantage dans les tâches nécessitant une compréhension du langage plus large ou une gestion des fenêtres de contexte long, car les modèles plus petits ont tendance à être plus spécifiques aux tâches.
Malgré leurs forces, les petits modèles peuvent lutter avec des tâches de raisonnement étendues ou face à des données hors distribution. Par exemple, dans les simulations d'échecs LLM, Deepseek-R1 a fait plus d'erreurs que les modèles plus grands, suggérant des limites dans sa capacité à maintenir la concentration et la précision sur de longues périodes.
Les compromis entre la taille du modèle et les performances sont essentiels lors de la comparaison des SRM avec des LRM de niveau GPT. Les modèles plus petits nécessitent moins de mémoire et de puissance de calcul, ce qui les rend idéaux pour les appareils Edge, les applications mobiles ou les situations où l'inférence hors ligne est nécessaire. Cette efficacité entraîne une baisse des coûts opérationnels, des modèles comme Deepseek-R1 étant jusqu'à 96% moins cher à exécuter que les modèles plus grands comme l'O1.
Cependant, ces gains d'efficacité viennent avec certains compromis. Les modèles plus petits sont généralement affinés pour des tâches spécifiques, ce qui peut limiter leur polyvalence par rapport aux modèles plus grands. Par exemple, alors que Deepseek-R1 excelle en mathématiques et en codage, il manque de capacités multimodales, telles que la capacité d'interpréter des images, que les modèles plus grands comme GPT-4O peuvent gérer.
Malgré ces limites, les applications pratiques des petits modèles de raisonnement sont vastes. Dans les soins de santé, ils peuvent alimenter les outils de diagnostic qui analysent les données médicales sur les serveurs hospitaliers standard. Dans l'éducation, ils peuvent être utilisés pour développer des systèmes de tutorat personnalisés, fournissant des commentaires étape par étape aux étudiants. Dans la recherche scientifique, ils peuvent aider à l'analyse des données et aux tests d'hypothèse dans des domaines comme les mathématiques et la physique. La nature open source de modèles comme Deepseek-R1 favorise également la collaboration et démocratise l'accès à l'IA, permettant aux petites organisations de bénéficier de technologies avancées.
L'évolution des modèles de langage en modèles de raisonnement plus petits est une progression importante de l'IA. Bien que ces modèles puissent ne pas encore correspondre aux grandes capacités des modèles de grands langues, ils offrent des avantages clés en matière d'efficacité, de rentabilité et d'accessibilité. En établissant un équilibre entre le pouvoir de raisonnement et l'efficacité des ressources, les modèles plus petits sont prêts à jouer un rôle crucial dans diverses applications, rendant l'IA plus pratique et plus durable pour une utilisation réelle.
Le CD Projekt confirme le changement de protagoniste de Witcher 4
Présentation de Lok Digital sur iOS et Android: Innovation de puzzle autonome
Metroid Prime Artbook Releasing as Nintendo x Piggyback Collab
Chill vous invite à faire une pause avec un peu de pleine conscience, disponible dès maintenant sur iOS et Android
Squid Game : la date de sortie de la saison 2 révélée
Comment utiliser les astuces dans Balatro (Guide du menu de débogage)
L'état de jeu révèle des mises à jour excitantes: PlayStation février 2025 vitrine
Exclusif : les jeux CN bien-aimés retirés des magasins en ligne
WordCross Champ - Free Best Word Games & Crossword
TéléchargerSTND Кейс Симулятор
TéléchargerBaghChal - Tigers and Goats
TéléchargerBowling
TéléchargerMLB Perfect Inning 24
TéléchargerIdle Rush : Zombie Tsunami
TéléchargerAnother World's Stories
TéléchargerFanchant
TéléchargerScooter Space
TéléchargerL'accusateur de violation du droit d'auteur fait face à une examen des bombardements
Apr 08,2025
Survivre les tombes à déplacement, le sort de Alter Desert dans la quête de la folie de Runescape Pharaon
Apr 08,2025
Arts of Puzzles dévoile la collection du Mois de la Terre pour la conservation
Apr 08,2025
"Une fois humain: guide des déviants et des écarts"
Apr 08,2025
OOTP Baseball Go 26 maintenant disponible sur iOS et Android
Apr 08,2025