Entrée des bureaux d'IBM mettant en valeur un design moderne, où des employés interagissent avec la technologie.

Le modèle IBM Granite 4.0 1B transforme l’IA vocale.

IBM a dévoilé aujourd’hui son modèle Granite 4.0 1B Speech, un système révolutionnaire de 1 milliard de paramètres qui offre une précision de reconnaissance vocale de premier plan tout en fonctionnant sur des appareils périphériques sans connectivité cloud. Ce modèle open source, deux fois plus petit que son prédécesseur, prend en charge six langues avec traduction en temps réel et s’est classé premier au palmarès d’OpenASR, rendant l’IA vocale de qualité professionnelle accessible aux environnements à ressources limitées.

L’architecture du modèle combine un encodeur type-conformer avec un décodeur type-transformer, garantissant à la fois une haute précision et un traitement efficace, selon l’annonce d’IBM sur Hugging Face. Cette conception hybride constitue une prouesse d’ingénierie majeure, offrant des performances supérieures tout en étant 50 % plus compacte que son prédécesseur à 2 milliards de paramètres.


IBM a entraîné le système sur plus de un million d’heures de données audio couvrant plusieurs langues et domaines. L’entraînement a nécessité un préentraînement sur cet immense corpus afin d’apprendre des représentations générales de la parole, suivi d’un affinage pour des tâches de reconnaissance vocale automatique et de traduction vocale bidirectionnelles, comme détaillé par l’entreprise dans sa documentation technique.

Percée en matière de performances

Le modèle a obtenu la première place au palmarès OpenASR dès sa sortie, évalué par le Taux d’Erreur Mot où des scores plus faibles indiquent une meilleure précision. Selon les évaluations d’IBM, Granite 4.0 1B Speech surpasse de nombreux modèles plus imposants tout en affichant une précision de transcription en anglais supérieure à celle de son prédécesseur.


Au-delà des indicateurs de performance bruts, le système introduit des fonctionnalités professionnelles essentielles, dont la pondération de mots-clés, qui optimise la reconnaissance de termes spécifiques tels que les noms propres et les acronymes. Cette capacité répond à un défi de longue date lors des déploiements en entreprise où un vocabulaire spécialisé est indispensable, a souligné IBM dans son annonce.

Accent sur l’edge computing d’entreprise

Capture d'écran de l'interface utilisateur du modèle de parole IBM Granite 4.0 affichée sur un écran d'ordinateur.

Le modèle cible explicitement les applications d’entreprise sur des appareils à ressources limitées, conformément au positionnement stratégique d’IBM. Sa taille compacte réduit l’empreinte mémoire et les besoins de calcul, tout en prenant en charge une inférence plus rapide via un décodage spéculatif et une intégration native avec vLLM, un moteur d’inférence à haut débit.


Distribué sous la licence Apache 2.0, le modèle autorise l’usage commercial, la modification et la distribution. IBM l’a rendu facilement accessible sur le Hugging Face Hub, avec ses propres poids et des exemples d’utilisation pour des frameworks populaires.


La capacité du système à fournir un traitement vocal haute précision en local garantit la confidentialité des données ainsi qu’une réactivité en temps réel sans connectivité cloud, ce qui en fait une alternative convaincante pour les organisations ayant des contraintes de sensibilité des données, de coûts ou de connectivité. Pour les déploiements en production exigeant des mesures de sécurité renforcées, IBM recommande d’associer ce modèle à son outil Granite Guardian.


Bien qu’IBM n’ait pas détaillé de feuille de route spécifique pour la gamme Granite Speech, l’entreprise sollicite activement les retours de la communauté afin d’orienter les développements futurs, démontrant une démarche collaborative pour faire progresser les capacités de l’IA vocale professionnelle.

Sources

  • https://huggingface.co/blog

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.