Le nouveau modèle d’IA compact de Microsoft est étonnamment puissant

Par

5 mars 2026

Microsoft Research a dévoilé Phi-4-reasoning-vision-15B, un modèle d’IA à poids ouverts révolutionnaire capable de voir, raisonner et résoudre des problèmes complexes avec seulement 15 milliards de paramètres, soit une fraction de la taille des systèmes concurrents. Publié le 4 mars 2026, ce modèle multimodal passe dynamiquement de la reconnaissance visuelle rapide au raisonnement en plusieurs étapes, affichant de solides performances en mathématiques, sciences et compréhension des interfaces tout en utilisant une puissance de calcul nettement inférieure à celle de rivaux plus massifs.

L’architecture du modèle marque une rupture significative avec la tendance industrielle vers des systèmes toujours plus grands. Microsoft Research a conçu Phi-4-reasoning-vision-15B avec une architecture de fusion intermédiaire associant SigLIP-2 comme encodeur visuel au socle linguistique Phi-4-Reasoning, selon la documentation technique de l’équipe de recherche.

Ce qui distingue ce modèle, c’est sa capacité de raisonnement sélectif. Le système privilégie par défaut l’inférence rapide et directe pour les tâches de perception simples comme la reconnaissance optique de caractères, mais bascule automatiquement vers un raisonnement structuré en plusieurs étapes lorsqu’il s’attaque à des problèmes mathématiques ou scientifiques complexes. Microsoft y est parvenu grâce à une stratégie d’entraînement délibérée : 20 pour cent des données furent conçues pour stimuler le raisonnement par chaîne de pensée, tandis que 80 pour cent se concentraient sur des tâches de perception exigeant des réponses directes.

Innovation technique

L’équipe de développement a privilégié la qualité des données sur la quantité, entraînant le modèle sur 200 milliards de tokens multimodaux issus de sources soigneusement sélectionnées. Les chercheurs de Microsoft ont examiné manuellement les jeux de données, utilisé GPT-4o pour régénérer des réponses correctes aux données erronées, et créé des données synthétiques, notamment pour les domaines visuels riches en texte comme les graphiques et les équations mathématiques.

Le modèle intègre un encodeur à résolution dynamique que les études de Microsoft ont jugé supérieur pour le traitement de données haute résolution telles que les captures d’écran; cette optimisation permet au système de traiter des entrées visuelles complexes tout en maintenant une efficacité de calcul optimale.

Lancement et applications à poids ouverts

Microsoft a publié les poids du modèle sur Microsoft Foundry et HuggingFace sous une licence permissive, ainsi que le code de réglage fin sur GitHub. L’entreprise rapporte que, dans des tests de performance internes, Phi-4-reasoning-vision-15B offre un « compromis idéal entre précision et coût » par rapport à d’autres modèles à poids ouverts comme Qwen.

Le modèle démontre de solides capacités en légendage d’images, en réponse visuelle aux questions (VQA) et en analyse de documents. Sa perception haute résolution et sa faible latence le rendent particulièrement adapté au développement de modèles agentiques interagissant avec des interfaces utilisateur graphiques, selon Microsoft.

Cependant, Microsoft reconnaît certaines limites. La frontière entre les modes de raisonnement et les modes sans raisonnement est apprise implicitement et peut être « imprécise », a noté l’équipe de recherche. Déterminer le mélange optimal de données pour les approches de raisonnement hybrides demeure une question de recherche ouverte.

Ce lancement marque un tournant plus large dans le développement de l’IA, visant à obtenir des performances compétitives grâce à une meilleure curation des données et à une innovation architecturale, plutôt que par la simple augmentation des paramètres.

Sources

Microsoft Research

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.
Liora – Your future. Decoded.

La newsletter du futur

Recevez un aperçu du futur directement dans votre boîte mail. Abonnez-vous pour découvrir les tendances tech de demain, des conseils exclusifs et des offres réservées à notre communauté.

S’inscrire à la newsletter

Le nouveau modèle d’IA compact de Microsoft est étonnamment puissant

Innovation technique

Lancement et applications à poids ouverts

Sources

DevOps

Certifications officielles

Titre RNCP de niveau 6

Panthéon Sorbonne – Formation continue

Certification AWS Cloud Practitioner

Comment financer la formation ?

Monitoring & Qualité

Monitoring & Qualité

Fondamentaux du MLOps

Bases de données

Comment financer la formation ?