Au revoir DALL-E, dites bonjour aux nouveaux modèles d’OpenAI !

Le 25 mars 2025, OpenAI a franchi un cap majeur dans la course à l’intelligence artificielle créative. L’entreprise américaine a dévoilé une nouvelle version de ChatGPT dotée de fonctionnalités avancées de génération d’images et de voix, directement intégrées à son modèle GPT-4o. Objectif : rendre l’IA plus utile, plus fluide et plus accessible que jamais. 

Une nouvelle génération d’images directement dans ChatGPT

DALL-E laisse place à GPT‑4o Image Generation, un outil nativement intégré à ChatGPT, qui, contrairement aux précédents modèles, permet une génération d’images contextualisée, précise et itérative, sans avoir à passer par une interface séparée ou un langage de prompt complexe.

Grâce à un entraînement multimodal (texte + image), GPT‑4o Image Generation comprend et traduit des descriptions en langage naturel en visuels cohérents, photoréalistes, stylisés ou techniques, selon les besoins. Il peut gérer jusqu’à 20 objets distincts, intégrer du texte lisible dans l’image, et suivre des consignes très précises : couleurs exactes, formats spécifiques (affiche, schéma, bande dessinée, etc.), style graphique…


Autre innovation : la conversation multi-tours. L’utilisateur peut affiner progressivement le visuel généré, corriger des détails ou combiner des éléments en plusieurs étapes.

Une IA plus multimodale que jamais

Avec GPT‑4o, OpenAI pousse l’idée de modèle omnimodal, capable de traiter et d’intégrer plusieurs types de données, à un niveau inédit. ChatGPT peut désormais analyser des images fournies par l’utilisateur, les modifier ou s’en inspirer pour générer un nouveau contenu. Jusqu’à 15 images peuvent être envoyées pour enrichir le contexte.

Voix et accessibilité : un écosystème qui s’élargit

Dans la foulée, OpenAI a également lancé trois modèles vocaux reposant sur GPT‑4o. Ces nouvelles IA vocales, accessibles via l’API, remplacent Whisper, l’ancien système ASR d’OpenAI, avec des performances améliorées :

  • gpt‑4o-transcribe, pour la transcription multilingue de haute précision (taux d’erreur réduit à 2,46 % en anglais)

  • gpt‑4o-mini-transcribe, version allégée pour intégration mobile

  • gpt‑4o-mini-tts, capable de synthétiser des voix avec ton, accent et émotion personnalisables

Ces modèles permettent de créer des assistants vocaux contextuels, expressifs et multilingues, utiles pour des cas d’usage variés : support client, assistants virtuels, apps de formation ou interfaces vocales low-code via le SDK Agents.

OpenAI sécurise son environnement

Sur le plan éthique, OpenAI insiste sur la sécurité. Toute image générée est marquée par des métadonnées C2PA, identifiant clairement son origine IA. L’entreprise a renforcé ses filtres de modération pour empêcher les dérives (deepfakes, nudité non consentie, contenus haineux). Un raisonneur LLM, formé à partir de règles humaines, interprète les ambiguïtés pour assurer un cadre éthique cohérent.

Autre grande nouveauté : la génération d’images est désormais disponible pour tous les utilisateurs, y compris en version gratuite. Les API pour développeurs suivront dans les prochaines semaines. Quant aux nostalgiques, DALL·E reste accessible via un GPT dédié.

Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.

Source : openai.com

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.