Un tableau de bord numérique affichant des analyses et métriques relatives à l'IA en science des matériaux.

Cette nouvelle IA vient de transformer la science des matériaux à jamais

Des chercheurs ont mis au point LLaMat, une famille de modèles de langage d’IA spécialisés qui surpassent des systèmes généralistes plus massifs sur des tâches de science des matériaux, malgré un nombre de paramètres inférieur. Ces modèles, fondés sur l’architecture LLaMA de Meta et entraînés sur 30 milliards de tokens de littérature scientifique, ont mené à un constat inattendu : LLaMA-2 s’adapte mieux à l’entraînement spécialisé que le récent LLaMA-3, suggérant que des modèles avancés peuvent résister à un apprentissage spécifique au domaine.

Ces modèles phares tirent leurs performances d’un processus sophistiqué d’entraînement en deux étapes. Les chercheurs ont d’abord continué le pré-entraînement des bases des architectures LLaMA sur la littérature en science des matériaux, puis ont mis en œuvre un ajustement par instructions en utilisant à la fois le jeu de données OpenOrca et un ensemble d’instructions conçu spécifiquement pour la science des matériaux et la chimie, selon le dépôt GitHub du projet.

L’infrastructure d’entraînement incluait des clusters Cerebras CS2 pour le pré-entraînement et des GPU NVIDIA A100 80GB pour l’ajustement par instructions. L’équipe de recherche a bâti sa base de code d’entraînement sur les bibliothèques Megatron-LLM et Meditron-LLM, rendant l’intégralité du code accessible publiquement pour la reproductibilité.

Lors des évaluations de performance sur des tâches de science des matériaux, incluant l’extraction d’informations et les bancs d’essai NLP spécifiques au domaine, les modèles LLaMat spécialisés de 7 et 13 milliards de paramètres ont systématiquement surpassé leurs homologues généralistes plus volumineux. Cela démontre qu’une spécialisation ciblée par domaine peut compenser l’avantage traditionnel lié à l’échelle dans les systèmes d’IA.

Découverte inattendue sur l’adaptabilité des modèles

Les recherches ont mis en lumière un fait contre-intuitif concernant le choix des modèles de fondation. LLaMA-3, bien que plus avancé, s’est adapté moins efficacement à l’entraînement dans le domaine de la science des matériaux comparé à l’ancien LLaMA-2, comme détaillé dans la publication de Nature Machine Intelligence.

Cette découverte suggère que les modèles pré-entraînés intensivement sur des corpus généraux pourraient développer une capacité réduite à assimiler des connaissances hautement spécialisées. Ce constat a des implications importantes pour les chercheurs lors du choix de modèles de base pour l’adaptation au domaine, indiquant que les modèles plus récents n’offrent pas nécessairement de meilleures performances pour les applications spécialisées.

Ce développement confirme que le pré-entraînement continu spécifique au domaine représente une stratégie extrêmement efficace pour les applications d’IA scientifique. Il met en évidence un compromis clair entre taille du modèle et spécialisation, où des modèles de taille moyenne bien entraînés peuvent surpasser des systèmes généralistes massifs sur des tâches spécifiques.

Pour assurer la reproductibilité et accélérer les recherches futures, l’équipe a publié l’intégralité du code pour le traitement des données, l’entraînement et l’évaluation, ainsi que les poids des modèles LLaMat pré-entraînés et ajustés par instructions sur le Hugging Face Hub. La publication principale inclut une documentation complète sur les limites des modèles et les considérations éthiques, selon Nature Machine Intelligence.

Ce travail établit un nouveau paradigme pour le développement d’outils d’IA pour la recherche scientifique, prouvant qu’une spécialisation stratégique peut offrir des performances supérieures tout en utilisant moins de ressources de calcul que les alternatives généralistes.

Sources

  • Nature Machine Intelligence

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.