Google DeepMind hat am Montag ein umfassendes Framework vorgestellt, um den Fortschritt in Richtung Künstlicher Allgemeiner Intelligenz (AGI) zu messen, indem Intelligenz in 10 zentrale kognitive Fähigkeiten unterteilt wird, und einen Kaggle-Wettbewerb über 200.000 US-Dollar gestartet, um neue moderne KI-Benchmarks zu entwickeln. Die Initiative, die bis zum 16. April läuft, lädt Forschende weltweit ein, spezielle Evaluierungstools für unterbewertete Bereiche wie Metakognition und soziale Kognition zu erstellen und markiert einen Wandel von aufgabenbasierter zu theoriebasierter KI-spezifischer Bewertung.
Laut Google DeepMind stellt das Framework einen grundlegenden Bruch mit bisherigen klassischen KI-Benchmarks wie MMLU, BIG-bench und HELM dar, indem es die Evaluierung in formaler Kognitionswissenschaft verankert, statt große Sammlungen von Aufgaben zusammenzustellen. Der neue Ansatz führt ein dreistufiges strukturiertes Evaluierungsprotokoll ein, das misst, ob KI-Systeme menschliche Muster der Problemlösung zeigen, durchschnittliche menschliche Fähigkeiten erreichen und schließlich Top-Expertinnen und -Experten in bestimmten Domänen übertreffen.
Aufschlüsselung der Intelligenz in Kernfähigkeiten
Die Taxonomie identifiziert 10 grundlegende kognitive Fähigkeiten, die für AGI essenziell sind, von grundlegender Wahrnehmung und Aufmerksamkeit bis hin zu komplexer Metakognition und sozialer Kognition. Laut dem auf Googles Blog veröffentlichten Framework umfassen diese Wahrnehmung zur Verarbeitung sensorischer Informationen, Aufmerksamkeit zum Ausblenden von Ablenkungen, Gedächtnis für Speicherung und Abruf von Informationen sowie Lernen zum Erwerb neuen Wissens.
Höherwertige Fähigkeiten umfassen exekutive Funktionen für Planung und Entscheidungsfindung, Schlussfolgern für logisches Denken und Problemlösungen sowie Metakognition für das Bewusstsein über die eigenen Denkprozesse. Das Framework berücksichtigt außerdem Sprachverständnis, Handlungen zur Interaktion mit physischen oder virtuellen Welten und soziale Kognition zum Verständnis anderer Akteure.
Der Kaggle-Hackathon, der vom 17. März bis zum 16. April 2026 läuft, zielt speziell auf fünf Fähigkeiten mit den größten bestehenden Evaluierungslücken ab: Lernen, Metakognition, Aufmerksamkeit, exekutive Funktionen und soziale Kognition. Gehostet auf Kaggles Community Benchmarks Platform bietet der Wettbewerb Forschenden weltweit die Chance, neue passgenaue Bewertungsinstrumente zu entwickeln, die in DeepMinds zentrale Evaluierungssuite integriert werden.
Kritische Lücken und Reaktionen der Branche

Trotz des umfassenden Ansatzes fehlen dem Framework auffallend Maßnahmen, um eine Benchmark-Manipulation zu verhindern, bei der Modelle lediglich Metriken maximieren, ohne ihre tatsächlichen Fähigkeiten zu verbessern. Die erste Ankündigung konzentriert sich laut DeepMinds Dokumentation ausschließlich auf die Messung von reinen KI-Leistungen, ohne eine Diskussion zur Bewertung der grundlegenden KI-Sicherheit oder zur Ausrichtung an menschlichen Werten.
Frühe Reaktionen innerhalb von Googles Ökosystem und der breiteren KI-Community fielen positiv aus, mit Zuspruch auf LinkedIn von Isabelle Hau und Erin Mote. Führende Forschende aus konkurrierenden KI-Laboren, darunter OpenAI und Anthropic, haben jedoch bislang keinen öffentlichen Kommentar zur Methodik des Frameworks oder zu potenziellen Einschränkungen abgegeben.
Das Fehlen eines Governance-Modells für die Pflege und Aktualisierung der Benchmarks wirft Fragen hinsichtlich der langfristigen Tragfähigkeit auf, da sich KI-Technologie rasant weiterentwickelt und statische Benchmarks potenziell innerhalb weniger Monate nach der Veröffentlichung obsolet werden könnten.
Sources
- blog.google
- kaggle.com

