OpenAI dio a conocer su modelo GPT-5.4 y el ChatGPT Agent esta semana, presentando un sistema de IA capaz de controlar computadoras de forma autónoma para completar tareas complejas como reservar restaurantes, analizar a la competencia e investigar. El agente, que opera dentro de un entorno virtual y requiere el consentimiento del usuario para acciones irreversibles, representa un cambio importante de la IA conversacional a sistemas autónomos, aunque las demostraciones actuales muestran que las tareas tardan entre 15 y 30 minutos en completarse.
La tecnología marca el primer modelo de OpenAI de uso general con capacidades nativas de uso de computadora, yendo más allá de las interacciones del chatbot tradicional hacia lo que la empresa llama su «modelo de frontera más capaz y eficiente para el trabajo profesional». El sistema opera a través de un entorno de computadora virtual dedicado, lo que le permite navegar por sitios web, completar formularios y ejecutar flujos de trabajo de varias etapas de forma independiente.
Durante las demostraciones reportadas por The Verge, el ChatGPT Agent mostró su capacidad para conectarse a Google Calendar, consultar OpenTable para reservas de restaurantes, enviar solicitudes de estacionamiento de oficinas y generar presentaciones basadas en el análisis de la competencia. El agente utiliza navegadores de texto y visuales, lo que le permite procesar contenido web a través de múltiples modalidades. Según The Verge, las tareas complejas actualmente toman entre 15 y 30 minutos en completarse, y OpenAI prioriza la finalización exitosa de las tareas sobre la optimización de la velocidad.
Barreras de seguridad y limitaciones
OpenAI ha implementado múltiples capas de seguridad para gestionar los riesgos del control autónomo de computadoras. El sistema requiere el consentimiento explícito del usuario antes de ejecutar acciones irreversibles, como enviar correos electrónicos o confirmar reservas, según informes de The Verge. Las transacciones financieras siguen restringidas, «por ahora», según declaró la empresa.
Cuando se accede a sitios web sensibles como portales financieros, el agente activa un «Watch Mode» que requiere que los usuarios permanezcan en la pestaña. Si los usuarios navegan fuera, el agente detiene automáticamente su actividad como medida de protección. OpenAI también ha activado protocolos de seguridad precautorios diseñados originalmente para «altas capacidades biológicas y químicas», aunque la compañía señala que no hay evidencia directa de que el modelo pueda ayudar a que los principiantes causen tal daño.
El panorama competitivo está evolucionando rápidamente a medida que las grandes firmas tecnológicas compiten para desarrollar capacidades similares. Google está avanzando su modelo Gemini 3 con una fuerte capacidad nativa de uso de computadora, mientras Anthropic se dirige a clientes empresariales con Claude 3.5v2, que cuenta con complementos especializados para los dominios de finanzas, legal y marketing. Microsoft está persiguiendo un enfoque diferente con su modelo Fara-7B, diseñado para ejecutarse localmente en dispositivos para una mayor privacidad y seguridad, según Microsoft Research.
Este cambio hacia sistemas de IA basados en agentes plantea preguntas fundamentales sobre responsabilidad, privacidad de datos y gobernanza corporativa a medida que las empresas se preparan para integrar agentes autónomos en sus flujos de trabajo. El surgimiento de la tecnología señala un momento decisivo en el desarrollo de la IA, ya que la inteligencia artificial pasa de ser una herramienta que asiste a convertirse en una que actúa.
Sources
- The Verge
- TechCrunch
- Microsoft Research Blog

