Meta présente SAM, la révolution de la computer vision

Récemment autorisée pour la surveillance des événements en France, la computer vision est une technologie novatrice de la vidéosurveillance. Dans ce domaine, une tâche est essentielle pour obtenir de bons résultats, la segmentation. Dans le but de démocratiser cette tâche, Meta présente son Segment Anything Model (SAM).

En quoi consiste SAM ?

La segmentation, où l’identification des pixels d’une image qui appartiennent à un objet, est une tâche importante de la vision par ordinateur. Néanmoins, la création d’un modèle de segmentation nécessite une grande expertise et un dataset spécialement conçu pour le domaine choisi. C’est pourquoi le projet SAM vise à réduire ce besoin en expertise, l’objectif des chercheurs est de créer un modèle de segmentation générale. L’équipe de conception a alors entraîné leur modèle sur diverses données pour qu’il s’adapte à des tâches spécifiques. Ces données forment aujourd’hui l’un des plus grands ensembles de données de segmentation, SA-1B composé de plus d’1,1 milliards de masques de segmentation.

https://www.youtube.com/watch?v=XHOmBV4js_E

Quelles sont ses capacités ?

SAM utilise un masque de segmentation pour n’importe quelle demande. Qu’il s’agisse d’avant-plan/arrière-plan, d’une boîte ou d’une demande approximative, d’un texte de forme libre, ou d’une information indiquant ce qu’il faut segmenter dans une image, SAM créera un masque pour accéder à la demande de son utilisateur.

Pour ce faire, un encodeur d’image produit une intégration unique pour l’image, tandis qu’un encodeur léger convertit n’importe quelle demande en un vecteur d’intégration en temps réel. Ainsi, ces deux sources d’information sont ensuite combinées dans un décodeur léger qui prédit les masques de segmentation. Une fois l’intégration de l’image calculée, SAM peut produire un segment en seulement 50 millisecondes à partir de n’importe quelle demande dans un navigateur web.

L’équipe de Meta AI a rendu l’ensemble de données open-source afin que d’autres chercheurs puissent former d’autres modèles. Meta espère que ces données pourront servir de base à de nouveaux ensembles de données comportant des annotations supplémentaires, telles qu’une description textuelle associée à chaque masque.

https://www.youtube.com/watch?v=XHOmBV4js_E

En partageant ses données, Meta souhaite accélérer la recherche sur la segmentation et la compréhension plus générale des vidéos. Meta s’engage encore plus sur la voie de l’open-source, après la mise en ligne de son LLaMA, un modèle NLP plus puissant et économe que ChatGPT. C’est pourquoi, si cet article vous a plu et si vous envisagez une carrière dans la Data Science, n’hésitez pas à découvrir nos articles ou nos offres de formations sur DataScientest.

Source : segment-anything.com

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.