Lundi, Google DeepMind a dévoilé un cadre exhaustif pour mesurer les progrès vers l’intelligence artificielle générale, en scindant l’intelligence en 10 aptitudes cognitives fondamentales et en lançant une compétition Kaggle de 200 000 $ pour concevoir de nouveaux référentiels d’IA. L’initiative, qui se déroule jusqu’au 16 avril, invite des chercheurs du monde entier à élaborer des outils d’évaluation pour des domaines sous-explorés comme la métacognition et la cognition sociale, marquant un passage d’une évaluation de l’IA centrée sur les tâches à une approche guidée par la théorie.
Selon Google DeepMind, ce cadre constitue une rupture fondamentale avec les référentiels d’IA existants comme MMLU, BIG-bench et HELM, en ancrant l’évaluation dans les sciences cognitives formelles plutôt que dans la compilation de vastes batteries de tâches. La nouvelle approche instaure un protocole d’évaluation en trois étapes qui détermine si les systèmes d’IA affichent des schémas de résolution de problèmes analogues à ceux des humains, égalent les capacités humaines moyennes et finissent par surpasser les meilleurs experts humains dans des domaines spécifiques.
Scinder l’intelligence en aptitudes fondamentales
La taxonomie identifie 10 aptitudes cognitives fondamentales essentielles pour l’AGI, allant de la perception et de l’attention de base à la métacognition et la cognition sociale plus complexes. Selon le document publié sur le blog de Google, celles-ci comprennent la perception pour traiter l’information sensorielle, l’attention pour filtrer les distractions, la mémoire pour conserver et restituer l’information, et l’apprentissage pour acquérir de nouvelles connaissances.
Les aptitudes de plus haut niveau englobent les fonctions exécutives pour la planification et la prise de décision, le raisonnement pour la pensée logique et la résolution de problèmes, et la métacognition pour la conscience de ses propres processus de pensée. Ce modèle intègre également la compréhension du langage, l’action pour interagir avec des mondes physiques ou virtuels, et la cognition sociale pour appréhender d’autres agents.
Le hackathon Kaggle, du 17 mars au 16 avril 2026, vise précisément cinq aptitudes affichant les plus importantes lacunes d’évaluation : apprentissage, métacognition, attention, fonctions exécutives et cognition sociale. Hébergée sur la plateforme Community Benchmarks de Kaggle, la compétition offre aux chercheurs du monde entier la possibilité de concevoir de nouveaux outils d’évaluation qui seront intégrés à la suite d’évaluation de DeepMind.
Lacunes critiques et réaction de l’industrie

Malgré cette approche holistique, le modèle manque cruellement de dispositifs pour empêcher le benchmark gaming, où les modèles optimisent des métriques sans véritable amélioration de leurs capacités. L’annonce initiale, selon la documentation de DeepMind, se concentre exclusivement sur la mesure des capacités de l’IA, sans aborder la sécurité des IA ni l’alignement sur les valeurs humaines.
Les premières réactions au sein de l’écosystème de Google et de la communauté IA au sens large sont positives, avec des soutiens publiés sur LinkedIn par Isabelle Hau et Erin Mote. Cependant, des chercheurs éminents de laboratoires d’IA concurrents, notamment OpenAI et Anthropic, n’ont pas encore formulé de commentaires publics sur la méthodologie du cadre ou ses limites potentielles.
L’absence d’un modèle de gouvernance pour maintenir et mettre à jour les référentiels soulève des questions quant à la viabilité à long terme, à mesure que la technologie de l’IA progresse, risquant de rendre des référentiels statiques obsolètes quelques mois seulement après leur déploiement.
Sources
- blog.google
- kaggle.com

