VideoCAD : L’IA qui apprend à concevoir des objets 3D en regardant des vidéos

VideoCAD : L’IA qui apprend à concevoir des objets 3D en regardant des vidéos

1. Introduction : Le défi de la conception numérique 3D

Téléchargez le PDF :right_arrow_curving_down:
Breaking_the_3D_CAD_Barrier.pdf (11,6 Mo)

La création de la plupart des objets qui nous entourent, des voitures aux avions, commence par une étape cruciale : la conception. À l’ère numérique, cette étape se déroule sur des logiciels spécialisés extrêmement puissants, mais aussi notoirement complexes.

1.1. Qu’est-ce que la Conception Assistée par Ordinateur (CAO) ?

Imaginez que vous deviez construire une voiture. Avant de couper la moindre tôle, vous auriez besoin d’un plan détaillé. La Conception Assistée par Ordinateur (CAO) est exactement cela : un plan de construction numérique pour des objets physiques. C’est un ensemble d’outils logiciels qui permettent aux ingénieurs et aux designers de créer, modifier et analyser des modèles 3D avec une précision millimétrique avant même de fabriquer un prototype.

1.2. Pourquoi la CAO est-elle si complexe ?

Maîtriser un logiciel de CAO demande des années d’expérience. Cette complexité est un véritable casse-tête qui s’explique par plusieurs facteurs clés :

  • Interfaces complexes : Ces logiciels présentent des centaines d’outils, de menus et d’options, ce qui peut être très intimidant pour un débutant.
  • Précision extrême : Contrairement à un simple dessin, la CAO exige une précision absolue. Chaque ligne, chaque courbe doit être définie par des coordonnées exactes pour garantir que la géométrie 3D finale soit parfaite.
  • Processus longs en plusieurs étapes : Créer un objet complexe n’est pas une action unique. Cela implique une séquence structurée d’opérations (dessiner une esquisse 2D, l’extruder en 3D, couper une partie, etc.) qui nécessite une excellente compréhension de l’espace et des paramètres.

1.3. Le mur de l’automatisation

Cette complexité a longtemps érigé un véritable mur entre l’intelligence artificielle et le monde de l’ingénierie de précision. Les agents IA existants, souvent conçus pour des tâches simples sur le web ou des applications mobiles (comme cliquer sur un bouton), ne sont pas adaptés aux interactions longues, précises et qui exigent un raisonnement en 3D.

Le problème principal est l’absence d’un bon jeu de données. Pour qu’une IA apprenne une tâche, elle a besoin de milliers d’exemples. Or, il n’existait pas de « bibliothèque » d’exemples montrant comment utiliser un logiciel de CAO de A à Z. Pour résoudre ce problème, des chercheurs du MIT ont adopté une nouvelle approche : apprendre à l’IA en lui faisant regarder des vidéos, comme le ferait un étudiant humain.

2. La solution : Un « manuel » vidéo pour apprendre la CAO

Pour enseigner la CAO à une IA, il faut lui fournir un manuel d’instructions adapté. C’est précisément l’objectif du projet VideoCAD.

2.1. VideoCAD : Une bibliothèque de démonstrations géante

VideoCAD est un jeu de données unique en son genre. Il s’agit d’une collection massive de plus de 41 000 vidéos qui montrent, étape par étape, la construction de modèles 3D dans un logiciel de CAO professionnel (Onshape).

00058464

On peut voir VideoCAD comme une immense collection de tutoriels vidéo, spécialement conçus pour être « compris » par une intelligence artificielle. Chaque vidéo est une leçon complète sur la façon de construire un objet spécifique.

2.2. Que contient une « leçon » VideoCAD ?

Chaque exemple du jeu de données est richement annoté et se compose de trois éléments clés synchronisés :

  • La vidéo de l’interface utilisateur : C’est ce que l’IA « voit », l’écran de l’ordinateur montrant la progression du design.
  • Les actions de la souris et du clavier : Ce sont les commandes précises (clics, frappes, déplacements de la souris) qui permettent de réaliser la tâche. L’IA sait exactement où cliquer et quelle touche presser.
  • Les descriptions des opérations : Ce sont des légendes de haut niveau qui expliquent ce qui se passe (par exemple, « Dessin d’une ligne », « Extrusion »), fournissant un contexte essentiel à l’IA.

2.3. En quoi VideoCAD est-il différent ?

VideoCAD se distingue radicalement des jeux de données d’interface utilisateur traditionnels. Le tableau suivant met en lumière ses caractéristiques uniques.

Caractéristique Jeux de données typiques VideoCAD
Longueur des tâches Courte (~10 actions) Très longue (~186 actions en moyenne)
Raisonnement 3D requis Non Oui (essentiel pour manipuler la géométrie)
Actions de précision Non (clics sur des boutons) Oui (actions au pixel près sur une « toile », pas juste sur des boutons prédéfinis)

En d’autres termes, la complexité des tâches dans VideoCAD n’est pas juste supérieure, elle est d’un tout autre ordre de grandeur, avec des séquences d’actions jusqu’à 20 fois plus longues que celles des jeux de données existants.

Ce « manuel » vidéo unique en son genre nécessite un « étudiant » tout aussi spécial pour pouvoir l’exploiter et en tirer des leçons.

3. L’ « étudiant » IA : Le modèle VideoCADFormer

Une fois le jeu de données créé, l’étape suivante consiste à développer un modèle d’IA capable de l’apprendre. C’est le rôle de VideoCADFormer.

3.1. Apprendre par imitation

VideoCADFormer est le modèle d’intelligence artificielle, basé sur une architecture Transformer, conçu pour « étudier » le jeu de données VideoCAD. Son objectif est simple : apprendre par imitation, une technique appelée clonage comportemental.

Concrètement, en regardant une image de l’objet final à construire et en observant les étapes déjà réalisées, VideoCADFormer apprend à prédire la prochaine action exacte à effectuer : le prochain clic de souris, le prochain déplacement ou la prochaine touche à presser.

3.2. Les deux super-pouvoirs de VideoCADFormer

Le modèle a démontré deux capacités impressionnantes qui le positionnent comme un véritable assistant de conception :

  1. Création à partir de zéro : En lui montrant uniquement une image de la pièce finie, VideoCADFormer peut générer toute la séquence d’actions nécessaires pour la construire, en partant d’une page blanche. Il planifie et exécute des centaines d’étapes pour reproduire la géométrie.
  2. Autocomplétion intelligente : Si on lui donne un projet à moitié terminé et l’image de l’objectif final, le modèle peut prédire et exécuter les étapes manquantes pour le finaliser. Il peut ainsi « reprendre » le travail là où un humain l’a laissé.

3.3. Des résultats prometteurs

Les tests montrent que VideoCADFormer surpasse les autres modèles de pointe, comme le modèle VPT d’OpenAI (conçu pour apprendre à jouer à Minecraft en regardant des vidéos). Il réussit à exécuter des séquences d’actions plus longues et plus précises, ce qui se traduit par des modèles 3D finaux de bien meilleure qualité géométrique.

Le projet ne s’est pas arrêté là. Les chercheurs ont également utilisé leur jeu de données pour tester la compréhension 3D d’autres IA de pointe.

4. L’examen final : Les IA modernes face au raisonnement 3D

Les grands modèles de langage (LLM) comme GPT-4 sont impressionnants pour générer du texte ou analyser des images, mais comment s’en sortent-ils face à la complexité de la CAO ?

4.1. VideoCAD VQA : Un test de compréhension visuelle

Pour le découvrir, les chercheurs ont créé un benchmark appelé VideoCAD VQA (Visual Question Answering). Il s’agit d’un « quiz » visuel pour évaluer la capacité des LLM à comprendre les vidéos de CAO et la géométrie 3D. On leur pose des questions précises sur les vidéos de construction, et les résultats révèlent des lacunes critiques. Alors qu’un modèle comme GPT-4.1 peut répondre correctement à une comparaison simple, il échoue sur des tâches de comptage ou de séquençage qui demandent un raisonnement plus profond.

Exemple de question Constat (Score de GPT-4.1)
« Combien d’extrusions ont été utilisées dans cette vidéo ? » 47,0 % : Les IA peinent à compter les opérations géométriques.
« La deuxième extrusion est-elle plus profonde que la première ? » 73,5 % : Elles réussissent mieux les comparaisons directes…
« Quel est l’ordre correct de ces images extraites de la vidéo ? » 36,0 % : …mais leur raisonnement temporel reste un défi majeur.

4.2. Le verdict : Un long chemin à parcourir

Le verdict est sans appel. Au-delà du simple « quiz » visuel, les chercheurs ont tenté de faire agir ces IA directement dans le logiciel Onshape. Le résultat fut un échec systématique : aucun des modèles testés, y compris les plus avancés, n’a réussi à réaliser une seule construction complète.

Malgré leurs capacités extraordinaires dans d’autres domaines, les LLM actuels échouent aux tâches de CAO. Ils manquent cruellement de la capacité de planification précise, du raisonnement spatial et de la compréhension géométrique approfondie nécessaires pour ces logiciels.

5. Conclusion : Vers des outils de conception plus intelligents

Le projet VideoCAD a apporté deux contributions majeures qui font progresser le domaine de l’automatisation et de l’intelligence artificielle :

  • Un jeu de données unique qui comble le fossé entre les IA et les logiciels d’ingénierie complexes, offrant un terrain d’entraînement jusqu’alors inexistant.
  • Un modèle performant (VideoCADFormer) qui prouve qu’il est possible d’apprendre des tâches de CAO complexes directement à partir de démonstrations vidéo.

Ce travail pionnier ouvre la voie à des assistants IA beaucoup plus intelligents, capables non seulement de comprendre nos intentions mais aussi d’automatiser des tâches de conception longues et fastidieuses. À l’avenir, on peut imaginer des IA qui apprennent en regardant des tutoriels humains ou qui maîtrisent des opérations encore plus avancées, rendant la conception 3D plus rapide, plus intuitive et plus accessible à tous.

Le projet sur Github: