{"id":184864,"date":"2026-03-05T16:42:48","date_gmt":"2026-03-05T15:42:48","guid":{"rendered":"https:\/\/liora.io\/es\/el-nuevo-y-compacto-modelo-de-ia-de-microsoft-es-sorprendentemente-poderoso"},"modified":"2026-03-05T16:42:48","modified_gmt":"2026-03-05T15:42:48","slug":"el-nuevo-y-compacto-modelo-de-ia-de-microsoft-es-sorprendentemente-poderoso","status":"publish","type":"post","link":"https:\/\/liora.io\/es\/el-nuevo-y-compacto-modelo-de-ia-de-microsoft-es-sorprendentemente-poderoso","title":{"rendered":"El nuevo y compacto modelo de IA de Microsoft es sorprendentemente poderoso"},"content":{"rendered":"<p><strong>Microsoft Research ha presentado Phi-4-reasoning-vision-15B, un modelo de IA de pesos abiertos que es capaz de ver, razonar y resolver problemas complejos con tan solo 15 mil millones de par\u00e1metros, una fracci\u00f3n del tama\u00f1o de los sistemas competidores. Lanzado el 4 de marzo de 2026, este modelo multimodal alterna din\u00e1micamente entre el reconocimiento visual r\u00e1pido y el razonamiento de m\u00faltiples pasos, logrando un rendimiento s\u00f3lido en matem\u00e1ticas, ciencias y comprensi\u00f3n de interfaces, a la vez que utiliza significativamente menos potencia de c\u00e1lculo que sus rivales de mayor tama\u00f1o.<\/strong><\/p>\n<p>La arquitectura del modelo representa un cambio significativo respecto a la tendencia de la industria hacia sistemas cada vez m\u00e1s grandes. <strong>Microsoft Research<\/strong> dise\u00f1\u00f3 Phi-4-reasoning-vision-15B con una arquitectura de fusi\u00f3n media que combina <strong>SigLIP-2<\/strong> como su codificador visual con la estructura base de lenguaje <strong>Phi-4-Reasoning<\/strong>, seg\u00fan la documentaci\u00f3n t\u00e9cnica del equipo de investigaci\u00f3n.<\/p>\n<p>Lo que distingue a este modelo es su capacidad de razonamiento selectivo. El sistema recurre por defecto a una inferencia r\u00e1pida y directa para tareas de percepci\u00f3n sencillas, como el reconocimiento \u00f3ptico de caracteres, pero cambia autom\u00e1ticamente a un razonamiento estructurado de m\u00faltiples pasos cuando aborda problemas complejos de matem\u00e1ticas o ciencias. Microsoft logr\u00f3 esto mediante una estrategia de entrenamiento intencional: el <strong>20 por ciento<\/strong> del conjunto de datos de entrenamiento se dise\u00f1\u00f3 para provocar un razonamiento de cadena de pensamiento, mientras que el <strong>80 por ciento<\/strong> se centr\u00f3 en tareas de percepci\u00f3n que requieren respuestas directas.<\/p>\n<h3 style=\"margin-top:2rem;margin-bottom:1rem;\">Innovaci\u00f3n T\u00e9cnica<\/h3>\n<p>El equipo de desarrollo prioriz\u00f3 la calidad de los datos sobre la cantidad, entrenando el modelo con <strong>200 mil millones de tokens multimodales<\/strong> procedentes de fuentes cuidadosamente seleccionadas. Los investigadores de Microsoft revisaron manualmente los conjuntos de datos, utilizaron GPT-4o para regenerar respuestas correctas ante datos defectuosos y crearon datos sint\u00e9ticos especialmente para dominios visuales densos en texto, como gr\u00e1ficos y ecuaciones matem\u00e1ticas.<\/p>\n<p>El modelo incorpora un codificador de resoluci\u00f3n din\u00e1mica que, seg\u00fan los estudios de Microsoft, resulta superior para gestionar datos de alta resoluci\u00f3n como capturas de pantalla. Esta optimizaci\u00f3n permite al sistema procesar entradas visuales complejas manteniendo al mismo tiempo la eficiencia computacional.<\/p>\n<h3 style=\"margin-top:2rem;margin-bottom:1rem;\">Lanzamiento de pesos abiertos y Aplicaciones<\/h3>\n<p><strong>Microsoft<\/strong> ha publicado los pesos del modelo en Microsoft Foundry y HuggingFace bajo una licencia permisiva, junto con el c\u00f3digo de ajuste fino en GitHub. La compa\u00f1\u00eda informa que, en pruebas de rendimiento internas, Phi-4-reasoning-vision-15B ofrece una \u00abrelaci\u00f3n deseable entre precisi\u00f3n y costos\u00bb en comparaci\u00f3n con otros modelos de pesos abiertos como Qwen.<\/p>\n<p>El modelo demuestra s\u00f3lidas capacidades en la descripci\u00f3n de im\u00e1genes, respuesta visual a preguntas y an\u00e1lisis de documentos. Su percepci\u00f3n de alta resoluci\u00f3n y baja latencia lo hacen particularmente adecuado para desarrollar modelos ag\u00e9nticos que interact\u00faan con interfaces gr\u00e1ficas de usuario, seg\u00fan Microsoft.<\/p>\n<p>Sin embargo, Microsoft reconoce ciertas limitaciones. La frontera entre los modos de razonamiento y los de no razonamiento se aprende de forma impl\u00edcita y puede ser \u00abimprecisa\u00bb, seg\u00fan se\u00f1al\u00f3 el equipo de investigaci\u00f3n. Determinar la mezcla \u00f3ptima de datos para enfoques de razonamiento h\u00edbridos sigue siendo una cuesti\u00f3n de investigaci\u00f3n abierta.<\/p>\n<p>Este lanzamiento marca un cambio m\u00e1s amplio en el desarrollo de la IA hacia la consecuci\u00f3n de un rendimiento competitivo mediante una mejor curaci\u00f3n de datos y la innovaci\u00f3n arquitect\u00f3nica, en lugar de simplemente escalar los par\u00e1metros.<\/p>\n<div style=\"margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e2e4ea;\">\n<h3 style=\"margin:0 0 0.75rem;font-size:1.1rem;letter-spacing:0.08em;text-transform:uppercase;\">\n    Sources<br \/>\n  <\/h3>\n<ul style=\"margin:0;padding-left:1.2rem;list-style:disc;\">\n<li>Microsoft Research<\/li>\n<\/ul>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Microsoft Research ha presentado Phi-4-reasoning-vision-15B, un modelo de IA de pesos abiertos que es capaz de ver, razonar y resolver problemas complejos con tan solo 15 mil millones de par\u00e1metros, una fracci\u00f3n del tama\u00f1o de los sistemas competidores. Lanzado el 4 de marzo de 2026, este modelo multimodal alterna din\u00e1micamente entre el reconocimiento visual r\u00e1pido y el razonamiento de m\u00faltiples pasos, logrando un rendimiento s\u00f3lido en matem\u00e1ticas, ciencias y comprensi\u00f3n de interfaces, a la vez que utiliza significativamente menos potencia de c\u00e1lculo que sus rivales de mayor tama\u00f1o.<\/p>\n","protected":false},"author":87,"featured_media":184862,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2440,2428],"class_list":["post-184864","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ia","category-noticias"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/184864","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/users\/87"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/comments?post=184864"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/184864\/revisions"}],"predecessor-version":[{"id":184872,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/184864\/revisions\/184872"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media\/184862"}],"wp:attachment":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media?parent=184864"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/categories?post=184864"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}