Des scientifiques d'Apple spécialisés dans l'IA ont étudié les capacités de raisonnement des grands modèles de langage (LLM) et les limites des évaluations actuelles sur le GSM8K. Ils ont constaté que les modèles d'IA basés sur le LLM manquent encore de compétences de base en matière de raisonnement. Ils introduisent également GSM-Symbolic, un nouveau benchmark avec de multiples variantes conçu pour fournir des informations plus approfondies sur les capacités de raisonnement mathématique des LLM.

Lire l'article de Jade Emy sur developpez.com