Cette nouvelle IA vous permet de parler plusieurs langues simultanément !

Les innovations concernant l’intelligence artificielle ne s’arrêtent plus. Deux anciens développeurs de TikTok ont mis au point l’intelligence artificielle, HeyGen, qui permet de traduire une vidéo en plusieurs langues en respectant votre intonation et la synchronisation labiale.

Parler plusieurs langues ?

Mis au point par deux data engineer, anciens employés chez TikTok, HeyGen peut faire parler à n’importe qui un peu moins d’une dizaine de langues, en conservant l’intonation et l’accent du locuteur. HeyGen peut vous faire parler 9 langues, dont deux formes d’anglais : anglais (accent américain), anglais (accent du pays du locuteur), italien, français, hindi, espagnol, allemand, polonais ou portugais.

Un aspect supplémentaire qui explique le succès de l’application est sa capacité à modifier la vidéo d’origine pour synchroniser les lèvres de l’acteur avec la langue parlée, fini les problèmes de synchronisation et les sous-titres !

Comment fonctionne HeyGen ?

Pour convertir correctement chaque vidéo, HeyGen modifie trois points grâce à son modèle LLM. En premier, la traduction, qui convertit le texte de la vidéo en texte de la langue voulu. On parle ici d’une capacité text-to-text, un fonctionnement similaire à celui de ChatGPT.

Ensuite le logiciel effectue une transcription text-to-audio du nouveau texte, comme le ferait  Voicemaker ou l’application VALL-E de Microsoft. 

Et enfin, HeyGen applique une transformation sur la vidéo pour associer le son au mouvement des lèvres grâce à un ensemble de données vidéo. Point noir de cette option, les experts remarque qu’elle provoque une consommation excessive de bande passante et de stockage, un traitement qui coûte cher en énergie, pas très écologique par les temps qui court.

Si le résultat peut être bluffant, il n’est pas pour autant parfait. Les traductions françaises comportent notamment un accent qui rappelle celui du Québec, un problème dû aux bases de données utilisées pour entraîner le modèle. Un autre point mis en avant est le blanchiment de la peau lors de la reconstruction labiale. Un défaut technique qui devra être réglé rapidement sous peine de voir apparaître des vidéos discriminatoires, comme ce fut le cas pour les algorithmes de reconnaissances lors des premiers essais de X, anciennement Twitter.

Malgré tout, HeyGen reste une révolution dans le domaine de la création visuelle. Ne reste plus qu’à espérer que les concepteurs de ce système trouveront une méthode plus économique pour pallier cette surconsommation d’énergie. Autre point inquiétant, l’utilisation d’HeyGen pourrait permettre la création de Deep Fakes d’une qualité jamais vue auparavant. Un avertissement qui rappelle l’importance de toujours vérifier ses sources sur internet. Si cet article vous a plu et que l’actualité data vous intéresse ou que vous envisagez une formation en Data Science, n’hésitez pas à découvrir nos articles ou nos offres de formations sur DataScientest.

Source : heygen.com

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.