Diagramme illustrant les Concept Bottleneck Models mécanistes en IA, présentant les couches du réseau neuronal et leurs connexions.

Les modèles Concept Bottleneck mécanistes révolutionnent l’interprétabilité de l’IA.

Des chercheurs du MIT et de l’Université polytechnique de Milan ont mis au point une nouvelle technique qui amène les systèmes d’intelligence artificielle à expliquer leurs décisions en découvrant et en étiquetant automatiquement les concepts qu’ils utilisent pour faire des prédictions. Le modèle mécaniste goulot conceptuel, présenté à l’International Conference on Learning Representations, transforme des modèles d’IA « boîte noire » en systèmes plus transparents qui atteignent une exactitude supérieure à celle des méthodes d’IA explicable précédentes, tout en fournissant un raisonnement plus clair pour leurs résultats.

Cette avancée répond à un défi crucial pour le déploiement de l’IA dans des applications sensibles où comprendre la logique qui sous-tend les prédictions peut être aussi important que l’exactitude elle-même. L’approche de l’équipe de recherche réinvente fondamentalement la façon dont les systèmes d’IA génèrent des explications en extrayant les concepts directement des modèles eux-mêmes plutôt qu’en s’appuyant sur des catégories définies par des humains, selon l’article publié à ICLR 2026.

Comment fonctionne la technologie

Le M-CBM emploie un processus en trois étapes pour transformer des modèles d’IA opaques en systèmes interprétables. Premièrement, un modèle d’apprentissage profond très spécialisé appelé auto-encodeur parcimonieux analyse les caractéristiques internes de modèles pré-entraînés afin d’identifier les motifs les plus importants utilisés pour les prédictions, comme détaillé par MIT News.


Ensuite, un grand modèle linguistique multimodal décrit automatiquement ces concepts découverts par la machine en langage naturel, tels que « points bruns regroupés » ou « pigmentation variée », et annote en conséquence des jeux de données d’images entiers. Enfin, le système entraîne un « module goulot conceptuel » qui contraint le modèle à fonder ses prédictions exclusivement sur ces concepts extraits et étiquetés, chaque décision n’utilisant que les cinq concepts les plus pertinents afin d’assurer la clarté.


Cette approche élimine les « fuites d’informations », problème courant où les modèles s’appuient secrètement sur des informations allant au-delà de leur raisonnement déclaré, rendant les explications plus fidèles au véritable processus de décision, selon les chercheurs.

Performances et compromis

Tableau présentant les métriques de performance des modèles mécanistes à goulot conceptuel en interprétabilité IA, incluant exactitude, précision, rappel.

Des tests menés sur l’identification des espèces d’oiseaux et le diagnostic des lésions cutanées ont montré que M-CBM a atteint la meilleure exactitude parmi les modèles d’IA interprétables. Selon l’étude, les concepts découverts par la machine se sont révélés plus directement applicables aux tâches que ceux définis par des humains.


Cependant, les chercheurs reconnaissent un défi persistant. « Les boîtes noires non interprétables surpassent encore les nôtres », ont-ils noté, soulignant la tension persistante entre l’explicabilité et la puissance prédictive brute. Cela signifie que les cliniciens pourraient devoir choisir entre un modèle opaque plus précis et un M-CBM légèrement moins précis qui peut expliquer son raisonnement lors du diagnostic de mélanomes potentiels.


À l’avenir, l’équipe prévoit de mettre l’approche à l’échelle en utilisant des LLM multimodaux plus grands et de développer des méthodes réduisant davantage les fuites d’informations. Les travaux établissent « un pont naturel vers l’IA symbolique et les graphes de connaissances », laissant entrevoir un potentiel de création de systèmes d’IA plus structurés et plus robustes, particulièrement précieux pour la santé, la finance et d’autres secteurs nécessitant une prise de décision transparente.

Sources

  • news.mit.edu

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.