Microsoft Research presentó AgentRx el 12 de marzo de 2026, un framework open source que diagnostica automáticamente por qué los agentes de IA fallan durante tareas complejas. La herramienta identifica el paso exacto en el que el proceso de un agente se vuelve irrecuperable, logrando un 23,6 % más de precisión que los métodos existentes en pruebas sobre 115 trayectorias de IA fallidas.
El entorno trata la ejecución de agentes de IA como una traza de sistema validable, ofreciendo a los desarrolladores un rastro de auditoría respaldado por evidencias para depurar fallos complejos, según Microsoft Research.
AgentRx opera mediante un proceso de diagnóstico de tres etapas. Primero, genera restricciones ejecutables que definen el comportamiento correcto del agente sintetizando reglas a partir de esquemas de herramientas como especificaciones OpenAPI y políticas de dominio expresadas en lenguaje natural. Luego, el entorno reproduce sistemáticamente la trayectoria completa del agente, evaluando cada acción frente a estas restricciones. Cuando se producen violaciones, identifica el primer paso irrecuperable como el «fallo crítico», lo que permite a los desarrolladores centrarse en el origen preciso en lugar de en los efectos posteriores.
Validación de rendimiento

Microsoft Research desarrolló el AgentRx Benchmark para validar la efectividad del entorno, creando un corpus de 115 trayectorias fallidas anotadas manualmente de entornos de tareas complejas que incluyen τ-bench, Flash y Magentic-One. El proceso de anotación produjo una taxonomía de fallos de nueve categorías que incluye problemas como fallos de cumplimiento del plan e invención de información no presente en las observaciones.
Las pruebas demostraron mejoras significativas frente a referencias de prompting basadas en LLM. AgentRx logró una mejora absoluta del 23,6 % en la localización de fallos críticos y una mejora absoluta del 19,4 % en la identificación correcta de las causas de fallo según la taxonomía, informó Microsoft Research.
Impacto en el mercado
El lanzamiento open source tanto del entorno como del benchmark anotado posiciona a Microsoft a la vanguardia de hacer la depuración de agentes de IA más sistemática y basada en evidencias. La herramienta aborda un cuello de botella crítico en el desarrollo de IA a medida que las empresas despliegan cada vez más agentes autónomos para tareas complejas.
Al ofrecer diagnósticos precisos y auditables, AgentRx permite a los desarrolladores construir sistemas de IA más transparentes y fiables. Microsoft Research invitó a la comunidad a utilizar estas herramientas en sus propios flujos de agentes y a contribuir a la creciente base de conocimientos sobre restricciones de fallo.
Aunque el entorno muestra resultados prometedores en las arquitecturas probadas, su rendimiento en sistemas de agentes o modos de fallo no representados en el benchmark sigue sin explorarse, lo que sugiere oportunidades para el desarrollo futuro y la ampliación de las capacidades de diagnóstico.
Sources
- microsoft.com/en-us/research/blog

