Microsoft Research ha presentado Phi-4-reasoning-vision-15B, un modelo de IA de pesos abiertos que es capaz de ver, razonar y resolver problemas complejos con tan solo 15 mil millones de parámetros, una fracción del tamaño de los sistemas competidores. Lanzado el 4 de marzo de 2026, este modelo multimodal alterna dinámicamente entre el reconocimiento visual rápido y el razonamiento de múltiples pasos, logrando un rendimiento sólido en matemáticas, ciencias y comprensión de interfaces, a la vez que utiliza significativamente menos potencia de cálculo que sus rivales de mayor tamaño.
La arquitectura del modelo representa un cambio significativo respecto a la tendencia de la industria hacia sistemas cada vez más grandes. Microsoft Research diseñó Phi-4-reasoning-vision-15B con una arquitectura de fusión media que combina SigLIP-2 como su codificador visual con la estructura base de lenguaje Phi-4-Reasoning, según la documentación técnica del equipo de investigación.
Lo que distingue a este modelo es su capacidad de razonamiento selectivo. El sistema recurre por defecto a una inferencia rápida y directa para tareas de percepción sencillas, como el reconocimiento óptico de caracteres, pero cambia automáticamente a un razonamiento estructurado de múltiples pasos cuando aborda problemas complejos de matemáticas o ciencias. Microsoft logró esto mediante una estrategia de entrenamiento intencional: el 20 por ciento del conjunto de datos de entrenamiento se diseñó para provocar un razonamiento de cadena de pensamiento, mientras que el 80 por ciento se centró en tareas de percepción que requieren respuestas directas.
Innovación Técnica
El equipo de desarrollo priorizó la calidad de los datos sobre la cantidad, entrenando el modelo con 200 mil millones de tokens multimodales procedentes de fuentes cuidadosamente seleccionadas. Los investigadores de Microsoft revisaron manualmente los conjuntos de datos, utilizaron GPT-4o para regenerar respuestas correctas ante datos defectuosos y crearon datos sintéticos especialmente para dominios visuales densos en texto, como gráficos y ecuaciones matemáticas.
El modelo incorpora un codificador de resolución dinámica que, según los estudios de Microsoft, resulta superior para gestionar datos de alta resolución como capturas de pantalla. Esta optimización permite al sistema procesar entradas visuales complejas manteniendo al mismo tiempo la eficiencia computacional.
Lanzamiento de pesos abiertos y Aplicaciones
Microsoft ha publicado los pesos del modelo en Microsoft Foundry y HuggingFace bajo una licencia permisiva, junto con el código de ajuste fino en GitHub. La compañía informa que, en pruebas de rendimiento internas, Phi-4-reasoning-vision-15B ofrece una «relación deseable entre precisión y costos» en comparación con otros modelos de pesos abiertos como Qwen.
El modelo demuestra sólidas capacidades en la descripción de imágenes, respuesta visual a preguntas y análisis de documentos. Su percepción de alta resolución y baja latencia lo hacen particularmente adecuado para desarrollar modelos agénticos que interactúan con interfaces gráficas de usuario, según Microsoft.
Sin embargo, Microsoft reconoce ciertas limitaciones. La frontera entre los modos de razonamiento y los de no razonamiento se aprende de forma implícita y puede ser «imprecisa», según señaló el equipo de investigación. Determinar la mezcla óptima de datos para enfoques de razonamiento híbridos sigue siendo una cuestión de investigación abierta.
Este lanzamiento marca un cambio más amplio en el desarrollo de la IA hacia la consecución de un rendimiento competitivo mediante una mejor curación de datos y la innovación arquitectónica, en lugar de simplemente escalar los parámetros.
Sources
- Microsoft Research

