Microsoft Research a dévoilé Phi-4-reasoning-vision-15B, un modèle d’IA à poids ouverts révolutionnaire capable de voir, raisonner et résoudre des problèmes complexes avec seulement 15 milliards de paramètres, soit une fraction de la taille des systèmes concurrents. Publié le 4 mars 2026, ce modèle multimodal passe dynamiquement de la reconnaissance visuelle rapide au raisonnement en plusieurs étapes, affichant de solides performances en mathématiques, sciences et compréhension des interfaces tout en utilisant une puissance de calcul nettement inférieure à celle de rivaux plus massifs.
L’architecture du modèle marque une rupture significative avec la tendance industrielle vers des systèmes toujours plus grands. Microsoft Research a conçu Phi-4-reasoning-vision-15B avec une architecture de fusion intermédiaire associant SigLIP-2 comme encodeur visuel au socle linguistique Phi-4-Reasoning, selon la documentation technique de l’équipe de recherche.
Ce qui distingue ce modèle, c’est sa capacité de raisonnement sélectif. Le système privilégie par défaut l’inférence rapide et directe pour les tâches de perception simples comme la reconnaissance optique de caractères, mais bascule automatiquement vers un raisonnement structuré en plusieurs étapes lorsqu’il s’attaque à des problèmes mathématiques ou scientifiques complexes. Microsoft y est parvenu grâce à une stratégie d’entraînement délibérée : 20 pour cent des données furent conçues pour stimuler le raisonnement par chaîne de pensée, tandis que 80 pour cent se concentraient sur des tâches de perception exigeant des réponses directes.
Innovation technique
L’équipe de développement a privilégié la qualité des données sur la quantité, entraînant le modèle sur 200 milliards de tokens multimodaux issus de sources soigneusement sélectionnées. Les chercheurs de Microsoft ont examiné manuellement les jeux de données, utilisé GPT-4o pour régénérer des réponses correctes aux données erronées, et créé des données synthétiques, notamment pour les domaines visuels riches en texte comme les graphiques et les équations mathématiques.
Le modèle intègre un encodeur à résolution dynamique que les études de Microsoft ont jugé supérieur pour le traitement de données haute résolution telles que les captures d’écran; cette optimisation permet au système de traiter des entrées visuelles complexes tout en maintenant une efficacité de calcul optimale.
Lancement et applications à poids ouverts
Microsoft a publié les poids du modèle sur Microsoft Foundry et HuggingFace sous une licence permissive, ainsi que le code de réglage fin sur GitHub. L’entreprise rapporte que, dans des tests de performance internes, Phi-4-reasoning-vision-15B offre un « compromis idéal entre précision et coût » par rapport à d’autres modèles à poids ouverts comme Qwen.
Le modèle démontre de solides capacités en légendage d’images, en réponse visuelle aux questions (VQA) et en analyse de documents. Sa perception haute résolution et sa faible latence le rendent particulièrement adapté au développement de modèles agentiques interagissant avec des interfaces utilisateur graphiques, selon Microsoft.
Cependant, Microsoft reconnaît certaines limites. La frontière entre les modes de raisonnement et les modes sans raisonnement est apprise implicitement et peut être « imprécise », a noté l’équipe de recherche. Déterminer le mélange optimal de données pour les approches de raisonnement hybrides demeure une question de recherche ouverte.
Ce lancement marque un tournant plus large dans le développement de l’IA, visant à obtenir des performances compétitives grâce à une meilleure curation des données et à une innovation architecturale, plutôt que par la simple augmentation des paramètres.
Sources
- Microsoft Research

