Una mujer trabajando en una computadora portátil en la oficina de Google DeepMind, con una diapositiva de presentación que muestra un marco cognitivo en la pantalla.

Google DeepMind revela marco cognitivo: medir AGI

Google DeepMind presentó el lunes un framework integral para medir el progreso hacia la Inteligencia General Artificial (AGI), dividiendo la inteligencia en 10 habilidades cognitivas fundamentales y lanzando una competición en Kaggle de $200,000 para desarrollar nuevos benchmarks de IA. Esta iniciativa, que se prolongará hasta el 16 de abril, invita a investigadores de todo el mundo a crear herramientas de evaluación para áreas menos exploradas como la metacognición y la cognición social, suponiendo un paso de una evaluación de IA basada en tareas a otra impulsada por la teoría.

Según Google DeepMind, el framework representa una ruptura fundamental con los benchmarks de IA existentes como MMLU, BIG-bench y HELM al basar la evaluación en ciencia cognitiva formal en lugar de recopilar grandes conjuntos de tareas. El nuevo enfoque introduce un protocolo de evaluación en tres etapas que mide si los sistemas de IA muestran patrones de resolución de problemas similares a los humanos, igualan las capacidades humanas medias y finalmente superan a los mejores expertos humanos en campos específicos.

Desglosando la inteligencia en habilidades clave

La taxonomía identifica 10 habilidades cognitivas fundamentales esenciales para la AGI, que abarcan desde percepción y atención básicas hasta metacognición y cognición social complejas. Según el framework publicado en el blog de Google, estas engloban la percepción para procesar información sensorial, la atención para filtrar distracciones, la memoria para almacenar y recuperar datos y el aprendizaje para adquirir nuevos conocimientos.


Las habilidades de nivel superior incluyen funciones ejecutivas para la planificación y la toma de decisiones, el razonamiento para el pensamiento lógico y la resolución de problemas y la metacognición para la conciencia de los propios procesos de pensamiento. El framework también contempla la comprensión del lenguaje, la acción para interactuar con mundos físicos o virtuales y la cognición social para comprender a otros agentes.


El hackathon Kaggle, que se llevará a cabo del 17 de marzo al 16 de abril de 2026, se centra específicamente en cinco habilidades con las mayores lagunas de evaluación: aprendizaje, metacognición, atención, funciones ejecutivas y cognición social. Alojada en la plataforma Community Benchmarks de Kaggle, esta competición ofrece a investigadores de todo el mundo la oportunidad de desarrollar nuevas herramientas de evaluación que se integrarán en la batería de evaluación de DeepMind.

Lagunas críticas y respuesta de la industria

Dos personas participando en un debate sobre datos de investigación, analizando gráficos en un portátil y rodeadas de notas.

A pesar del enfoque integral, el framework carece notablemente de medidas para prevenir la manipulación de benchmarks, donde los modelos priorizan ciertas métricas sin una mejora genuina de capacidades. El anuncio inicial, según la documentación de DeepMind, se centra exclusivamente en medir capacidades de IA sin abordar la evaluación de IA segura ni la alineación con los valores humanos.


Las primeras reacciones dentro del ecosistema de Google y de la comunidad de IA en general han sido positivas, con apoyos en LinkedIn de Isabelle Hau y Erin Mote. Sin embargo, investigadores destacados de laboratorios de IA rivales, incluidos OpenAI y Anthropic, aún no han ofrecido comentarios públicos sobre la metodología del framework o sus posibles limitaciones.


La ausencia de un modelo de gobernanza para mantener y actualizar los benchmarks suscita dudas sobre la viabilidad a largo plazo a medida que avanza la tecnología de IA, lo que podría dejar obsoletos los benchmarks estáticos a los pocos meses del despliegue.

Sources

  • blog.google
  • kaggle.com