Des chercheurs ont mis au point P-EAGLE, un nouveau système qui accélère les modèles de langage d’intelligence artificielle jusqu’à 69 % par rapport aux méthodes actuelles. La technologie, testée sur les derniers GPU B200 de NVIDIA, génère plusieurs prédictions de texte simultanément plutôt qu’une à la fois, éliminant un goulot d’étranglement majeur qui ralentit les réponses de l’IA dans des applications comme ChatGPT.
Cette avancée répond à un défi fondamental dans la manière dont les systèmes d’IA traitent et génèrent du texte. Les méthodes traditionnelles comme EAGLE-3 doivent générer chaque mot prédit de façon séquentielle, en attendant que l’un soit terminé avant de commencer le suivant. P-EAGLE surmonte cette limitation en traitant toutes les prédictions en une seule étape de calcul, selon des travaux publiés sur l’AWS Machine Learning Blog.
Ce changement architectural a des avantages pratiques immédiats. Testé sur des scénarios incluant la génération de code et des conversations multi-tours, le système a atteint son pic d’accélération 1,69x sur des tâches de génération de code longues. La technologie a maintenu une amélioration de 1,55x à la fois sur la synthèse de code au niveau des fonctions et sur des tests en IA conversationnelle, démontrant des performances constantes sur des applications variées.
Innovation technique

L’innovation clé réside dans la manière dont P-EAGLE gère les informations manquantes pendant la génération de texte. Alors que les systèmes précédents exigeaient des jetons réels et des états internes de chaque étape avant de poursuivre, P-EAGLE remplace les données indisponibles par des paramètres entraînables appelés « mask token embeddings » et par des états cachés partagés. Cela permet au système de traiter plusieurs positions simultanément sans attendre des sorties séquentielles.
Plus important encore, P-EAGLE peut exploiter efficacement des profondeurs de spéculation accrues. Le système a atteint des performances optimales avec une profondeur spéculative de sept jetons, contre seulement trois pour l’EAGLE-3 traditionnel, selon la recherche d’AWS. Cette capacité de spéculation plus poussée se traduit directement par des temps de réponse plus courts pour les utilisateurs finaux.
Disponibilité sur le marché et compromis
La technologie est déjà intégrée dans le vLLM inference server sous licence Apache 2.0, ce qui la rend librement disponible pour un usage commercial. Des modèles pré-entraînés compatibles avec P-EAGLE sont disponibles sur Hugging Face pour des systèmes d’IA populaires, dont GPT-OSS et Qwen3-Coder.
Le principal compromis est une consommation de mémoire accrue en raison des matrices d’attention plus grandes de l’architecture parallèle. Toutefois, l’équipe d’AWS a développé un « sequence partition algorithm » pour gérer l’utilisation de la mémoire pendant l’entraînement, rendant le système viable pour un déploiement en conditions réelles.
Point important, P-EAGLE maintient une qualité strictement inaltérée, produisant des résultats identiques aux méthodes standard tout en atteignant des taux d’acceptation plus élevés pour le texte généré, ce qui indique des prédictions plus précises nécessitant moins de corrections.
Sources
- aws.amazon.com/blogs/machine-learning

