Les chercheurs du MIT créent un modèle de vision par ordinateur neuf fois supérieur aux anciennes générations

Lorsqu’un véhicule autonome souhaite reconnaître son environnement, il doit se servir d’un système de vision par ordinateur pour catégoriser chaque pixel enregistré par sa caméra. Mais cette segmentation est un processus complexe et nécessitant une importante puissance de calculs. Soucieux d’améliorer ce système, des chercheurs du MIT ont mis au point un nouveau modèle de vision par ordinateur, capable d’effectuer une segmentation sémantique précise en temps réel sur un appareil aux ressources matérielles limitées.

Un nouveau modèle de vision par ordinateur ?

Durant leurs recherches, les chercheurs du MIT souhaitaient améliorer le traitement du calcul linéaire des modèles de pointe, tout en conservant leurs capacités. Pour cela, ils ont créé une suite de nouveaux modèles nommés EfficientViT. Cette nouvelle génération a été évaluée comme neuf fois supérieures aux anciens modèles en matière d’efficacité, tout en gardant la même précision. La performance ne diminuant pas, même lorsque le modèle est installé sur un appareil mobile.

Selon les équipes du MIT, ces nouveaux modèles permettraient aux véhicules autonomes de prendre des décisions en temps réel et de s’adapter aux changements de situation. Ils pourraient également servir à améliorer la segmentation d’images médicales et à une palanquée d’autres tâches de vision par ordinateur.

https://www.youtube.com/watch?v=9vjyMCE-IbI&t=1s&ab_channel=MITHANLab

Quelles différences avec les anciens ?

Les chercheurs ont conçu EfficientViT avec une architecture adaptée au matériel, afin qu’il soit plus facile à exécuter sur différents types d’appareils, tels que les casques de réalité virtuelle ou les ordinateurs de bord des véhicules autonomes. 

Pour améliorer leurs efficacités, l’équipe du MIT a réorganisé l’ordre des opérations pour réduire le nombre de calculs nécessaires. Mais, afin de conserver une qualité de traitement et d’imagerie minimale, ils ont ajouté deux unités de traitement supplémentaires : l’un aidant les modèles à mieux reconnaître les liens entre les objets, l’autre permettant aux modèles de se souvenir des objets.

En s’appuyant sur ces résultats, les chercheurs souhaitent appliquer cette technique pour accélérer les modèles génératifs d’apprentissage automatique, tels que ceux utilisés pour générer de nouvelles images. Si cet article vous a plu et que l’actualité data vous intéresse ou que vous envisagez une formation en Data Science, n’hésitez pas à découvrir nos articles ou nos offres de formations sur DataScientest.

Source : news.mit.edu

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.