SAM 3D : La 3D à partir d’une simple image
SAM 3D est une technologie d’intelligence artificielle révolutionnaire développée par Meta AI, capable de transformer une simple image 2D en un modèle 3D détaillé. Cette avancée majeure dans la compréhension visuelle de notre environnement repose sur deux modèles principaux : l’un spécialisé dans la reconstruction des objets et des scènes, l’autre dans la capture de la forme humaine. Cette fiche d’information vous propose une introduction claire à cette technologie et à son potentiel.
[!Note]
Le projet est un projet open source de Meta Facebook en version « aperçu » (preview)
[!Question] Puis-je télécharger les modèles 3D générés ?
Non, vous ne pouvez pas télécharger les modèles 3D objets générés à partir de la page de test (à part au format GLB pour les modèles humains). Par contre il s’agit d’un projet open source disponible sur GitHub. Si vous avez les connaissances nécessaires, vous pouvez installer les scripts Python pour procéder vous même à l’exportation des modèles 3D
Qu’est-ce que SAM 3D ?
SAM 3D est une collection de modèles d’IA conçus pour apporter une compréhension 3D de « bon sens » aux images du monde réel. Son objectif principal est de créer des reconstructions 3D robustes et détaillées à partir d’une seule image statique, même dans des conditions complexes. Pour accomplir cette prouesse, SAM 3D s’appuie sur deux modèles hautement spécialisés, chacun abordant un aspect différent du monde visuel.
Les Deux Piliers de SAM 3D
La force de SAM 3D réside dans ses deux modèles distincts et complémentaires, qui interprètent et reconstruisent les différents éléments d’une image.
SAM 3D Objects : Reconstruire le monde qui nous entoure
Ce modèle se concentre sur la reconstruction tridimensionnelle des objets et des scènes. Il ne se contente pas de deviner une forme, mais génère un modèle 3D complet et exploitable.
- Géométrie, texture et agencement : Le modèle reconstruit non seulement la forme d’un objet, mais aussi sa texture (son apparence de surface) et sa position exacte dans l’espace. Cela permet de créer des scènes 3D cohérentes et réalistes.
- Gestion des scènes complexes : Il est particulièrement robuste face aux défis du monde réel, comme les objets partiellement cachés (occlusion) ou les environnements encombrés. Cette robustesse lui permet de réussir là où les modèles traditionnels, souvent entraînés sur des objets isolés, échouent. SAM 3D Objects s’appuie sur le contexte de la scène pour reconstruire intelligemment les parties cachées.
- Génération rapide : Il peut générer des modèles 3D posés en quelques secondes seulement, ce qui le rend utile pour des applications quasi temps réel, comme la robotique ou la réalité augmentée.
SAM 3D Body : Comprendre la forme humaine
Ce modèle est spécialisé dans l’estimation de la pose et de la forme 3D du corps humain à partir d’une image unique. Il offre une précision et une flexibilité remarquables.
- Robustesse et précision : Il fonctionne de manière fiable même dans des situations difficiles, comme des postures inhabituelles, des parties du corps masquées ou la présence de plusieurs personnes sur une même photo.
- « Promptable » et interactif : Le terme « promptable » signifie que l’utilisateur peut guider activement le modèle. En fournissant des masques de segmentation ou des points clés sur l’image, on peut affiner le résultat et s’assurer que la reconstruction 3D correspond parfaitement à l’intention.
- Basé sur un format ouvert : Ses prédictions reposent sur le MHR (Meta Momentum Human Rig), un nouveau format de maillage 3D open-source qui sépare la structure du squelette et la forme des tissus, le rendant plus interprétable.
Ci-dessous un petit essai avec une photo de moi, le modèle 3D est généré et pour les modèles 3D humains, il est possible de télécharger le fichier 3D en format GLB. Il se trouve que le format GLB est directement visible en 3D sur notre site Dessein-Tech (ouais ouais je sais, il manque des détails
).
{"src":"https://dessein-tech.com/uploads/default/original/2X/0/040d9316c84bbf655b514b2977a35635f47551c1.glb","poster":"https://dessein-tech.com/uploads/default/original/2X/7/7a0fbfaf5be8e3047e8ddb059155112313008bcc.png"}
Tableau Comparatif
Ce tableau synthétise les caractéristiques clés des deux modèles pour une comparaison rapide.
| Caractéristique | SAM 3D Objects | SAM 3D Body |
|---|---|---|
| Objectif principal | Reconstruire des objets et des scènes. | Estimer la pose et la forme du corps humain. |
| Idéal pour | Créer des modèles 3D d’objets (une lampe, une table) dans une pièce. | Capturer la posture 3D d’une personne sur une photo. |
| Point fort | Gère bien l’occlusion et l’encombrement. | Gère les postures inhabituelles et les vues partielles. |
La capacité de SAM 3D à interpréter une image 2D avec une telle profondeur découle d’une innovation fondamentale dans la manière d’entraîner le modèle, qui contourne un obstacle majeur de l’IA 3D.
Comment ça marche ? L’innovation clé
Le principal défi pour le développement de l’IA 3D a toujours été le manque de données. Contrairement aux milliards d’images et de textes disponibles, les données 3D de haute qualité sont rares. De plus, les ensembles de données existants sont principalement composés d’objets 3D synthétiques et isolés, ce qui limite les performances des modèles dans les scènes complexes et désordonnées du monde réel.
Pour surmonter cet obstacle, Meta s’est inspiré des techniques qui ont fait le succès des grands modèles de langage (LLM). L’idée maîtresse est la suivante : il est beaucoup plus facile pour un humain de vérifier ou classer des modèles 3D existants que de les créer à partir de zéro. Cette intuition est au cœur d’un processus d’entraînement en deux étapes :
- Pré-entraînement : Le modèle apprend d’abord les bases de la 3D à partir d’une grande quantité de données synthétiques (des objets et scènes créés par ordinateur). Cette étape lui donne une connaissance fondamentale des formes et des textures.
- Alignement : Pour combler le fossé entre le synthétique et le réel (« sim-to-real gap »), le modèle est ensuite affiné grâce à un puissant « moteur de données ». Dans ce système, des humains évaluent la qualité des maillages 3D générés par l’IA à partir d’images du monde réel. Ce retour d’information alimente une boucle de rétroaction positive : le modèle s’améliore, ce qui aide le moteur à générer de meilleures données pour la prochaine itération.
Cette méthode ingénieuse permet d’adapter le modèle à la complexité du monde physique. Pour mesurer cette avancée, Meta a même dû créer un nouveau benchmark plus exigeant, SA-3DAO (SAM 3D Artist Objects), car les standards existants n’étaient pas à la hauteur de la complexité du monde réel.
À quoi ça sert ? Exemples et potentiel
La technologie SAM 3D n’est pas seulement une prouesse de recherche ; elle a déjà des applications concrètes.
L’exemple le plus parlant est la fonctionnalité « View in Room » sur Facebook Marketplace. Elle permet aux utilisateurs de visualiser des articles de décoration, comme une lampe ou une table, directement dans leur propre espace via la caméra de leur téléphone, avant même de procéder à l’achat.
Le potentiel de SAM 3D s’étend bien au-delà du e-commerce, avec des applications prometteuses dans de nombreux domaines :
- Robotique : Pour permettre aux robots d’avoir une meilleure perception spatiale de leur environnement.
- Médias interactifs et jeux vidéo : Pour la création rapide d’éléments 3D à partir d’images.
- Science et médecine sportive : Pour analyser avec précision les postures et les mouvements humains en 3D.
- Cinéma : Pour faciliter la création d’effets visuels et l’intégration d’objets virtuels dans des scènes réelles.
Explorez par vous-même
Meta AI encourage la communauté à expérimenter cette technologie. Vous pouvez tester les capacités de SAM 3D en vous rendant sur le « Segment Anything Playground ». Cette plateforme en ligne vous permet de télécharger vos propres images pour reconstruire des humains et des objets en 3D, et ainsi explorer directement le potentiel de ces modèles.
Conclusion et prochaines étapes
SAM 3D représente une avancée significative pour la perception 3D dans le monde réel, en rendant la création de modèles tridimensionnels plus accessible et plus robuste que jamais.
Bien sûr, la technologie a encore des limites, comme une résolution parfois modérée pour les objets très complexes ou une gestion encore perfectible des interactions physiques entre plusieurs objets. Cependant, en démocratisant la reconstruction 3D, SAM 3D ouvre un champ immense de nouvelles possibilités créatives et de recherche, et nous ne sommes qu’au début de ce que cette technologie permettra d’accomplir.