Briefing : De l’invention du XML aux documents intelligents (Jean Paoli & Grégory Senay, Docugami)
« En gros tous les documents du monde sauf PDF c’est du XML. »
Contexte de l’entrevue :
L’entrevue met en lumière deux personnalités clés du monde de l’informatique :
- Jean Paoli : Co-inventeur du langage XML, informaticien ayant travaillé à l’Inria et 10 ans chez Microsoft (notamment sur Internet Explorer, Infopath, HTML5). Il est décrit comme « une figure de l’histoire de l’informatique ».
- Grégory Senay : Scientifique principal de l’entreprise Docugami, co-fondée avec Jean Paoli.
L’entrevue se déroule à Vivatech 2025, où Docugami est venu annoncer le lancement de sa filiale européenne. Les deux intervenants vivent aux États-Unis (Jean Paoli à Seattle, Grégory Senay dans la Silicon Valley).
Thèmes principaux et idées clés :
1. L’invention et l’importance du XML :
- Origine et Concept : L’idée du XML est née de la nécessité d’organiser des données au sein de documents longs et complexes (ex: documents d’assurance, de développement de médicaments). Jean Paoli a été inspiré par des chercheurs de l’Inria à « penser le document de façon un peu différente comme étant une source de données ».
- Limites des modèles existants : Le modèle relationnel classique des bases de données ne fonctionnait pas pour ces documents complexes. Il fallait inventer un « modèle semi-structuré sémantique que XML implémente ».
- Définition : XML signifie « eXtensible Markup Language ». L’ajout du ‹ X › vient du fait que les gens connaissaient déjà HTML, et le ‹ X › a été ajouté pour indiquer l’extensibilité.
- Distinction avec HTML : Contrairement à HTML qui utilise des balises de mise en forme (gras, italique, titre), XML utilise des « tags sémantiques ». Par exemple, au lieu de dire « c’est un titre », on dit « c’est un nom de médicament », en marquant le sens conceptuel des données.
- Ubiquité : XML est devenu un outil « très puissant pour pouvoir envoyer de l’information de d’une machine A à une machine B ». Aujourd’hui, « tous les documents du monde sauf PDF c’est du XML » (ex: .docx, .xlsx, .pptx). Il est même présent dans des objets du quotidien (« dans votre frigo »). C’est un standard du W3C et n’appartient à personne.
- Historique du développement : Jean Paoli travaillait déjà sur SGML (le prédécesseur de XML) au sein de startups de l’Inria en France. Il faisait partie d’une communauté mondiale qui se réunissait pour « discuter comment allait changer le monde ». Avec l’avènement de HTML, ils ont « simplifié ce qu’on faisait depuis 10 ans » très rapidement pour créer XML. L’objectif était de « libérer les données qui étaient dans les documents » pour qu’elles puissent être partagées entre des centaines de milliers d’ordinateurs.
2. Docugami : L’IA au service de l’extraction sémantique des documents :
- Création et Vision : Docugami a été créé « 3 mois après la publication du papier Attention un need de Google qui a créé les Transformers les LLM ». L’idée est d’utiliser les Large Language Models (LLM) et les Transformers pour « créer les données qui sont dans les documents » et générer le même modèle de données XML que Jean Paoli connaît.
- Problématique des documents longs : L’entreprise se concentre sur les « documents longs qui font 50 100 200 pages » et qui sont nombreux dans des secteurs comme l’assurance, la finance, le manufacturing, les sciences de la vie.
- Fonctionnement : Docugami utilise des LLM (classiques ou « agentiques ») pour générer une structure de données XML sémantique qui représente « l’ensemble des données qui sont dans un document en entier ». Cette extraction se fait avec une « précision extraordinaire ».
- Différence avec les LLM génériques (ex: ChatGPT) :Précision et Hallucinations : Docugami offre une précision accrue et réduit drastiquement les « hallucinations » des LLM. Pour ce faire, ils ont une « couche intermédiaire de données » qui filtre les réponses des LLM, ne montrant l’information que si elle est dans les données d’origine. Jean Paoli estime qu’une précision de 95% est « un très bon nombre ».
- Transparence et Souveraineté : Docugami s’inscrit dans une démarche d’« AI transparente et souveraine ». Cela signifie qu’ils n’utilisent pas les données d’un client pour entraîner des modèles pour un autre client.
- Approche Client : Docugami est un outil pour les utilisateurs finaux (ex: agents d’assurance, non les compagnies directement). Les clients uploadent leurs documents, et Docugami les « prépare » pour créer des bases de données structurées.
- Recherche et Développement : Docugami est un « labo privé » qui mène une « recherche scientifique » avancée. Ils développent des méthodes adaptées aux données et au langage spécifiques de chaque client. Ils publient leurs travaux dans des conférences et possèdent six brevets.
- Modèle de travail : L’entreprise est « remote only » sans bureaux physiques, avec des équipes réparties aux États-Unis, au Canada, et de nombreux scientifiques français.
3. L’écosystème technologique et les talents en France :
- Vivatech : Les deux fondateurs ont été très impressionnés par Vivatech, la trouvant « variée » et « très enrichissante », la comparant à de grandes conférences sur le cloud ou la technologie mobile. Ils notent la forte présence de compagnies françaises axées sur l’IA, la robotique et le traitement du langage naturel.
- Comparaison avec les USA : Sur le plan technologique, les technologies sont les mêmes et ils se sentent « à l’aise ». La principale différence réside dans l’affluence d’événements comme Vivatech.
- Talents Français : Jean Paoli est un « pur produit de l’excellence française » et insiste sur la qualité des talents français, notamment dans la recherche. La majorité de l’équipe scientifique de Docugami est française. L’ouverture de la filiale européenne en France est motivée par la recherche de « talents » scientifiques de très haut niveau.
- Financement et attractivité : Jean Paoli estime qu’il n’y a « pas assez de financement sérieux en France et en Europe », notamment des investisseurs (VCI) prêts à prendre des risques élevés, comme aux États-Unis. Les valorisations des entreprises seraient également plus faibles en Europe, ce qui limite l’attractivité.
- Stratégie de recrutement en France : Docugami prévoit d’abord d’embaucher des « scientifiques de très haut niveau » (ayant publié dans des conférences internationales), puis de les entourer d’étudiants (thésards, masters). Ils visitent déjà des laboratoires (La Rochelle, Marseille, Avignon, Paris, Lyon) pour des collaborations scientifiques. Plus tard, ils recruteront des profils business. L’entreprise met l’accent sur le « chouchoutage » des employés (bonnes conditions de travail, intéressent, suivi personnalisé) au-delà du simple salaire, s’inspirant de la culture Microsoft.
Citations marquantes :
- Jean Paoli sur XML : « En gros tous les documents du monde sauf PDF c’est du XML. »
- Jean Paoli sur le but du XML : « L’idée c’était que précisément les données qui étaient qui sont dans les documents puissent être libérées et que ça peut être partagé entre plusieurs des centaines de milliers d’ordinateurs. »
- Jean Paoli sur la philosophie de Docugami : « On utilise LLM pour créer les données qui sont dans les documents… mon idée depuis le départ c’était d’utiliser les LLM pour générer le même modèle de données XML que je connais très bien. »
- Grégory Senay sur l’adaptation aux clients : « On vient adapter exactement [à] la donnée du client, au langage du client, à l’information des clients et pas avoir une extraction d’information qui est générale. »
- Jean Paoli sur les hallucinations de l’IA : « Nous ce qu’on fait c’est on on croit dans une AI transparente et souveraine… on ne montre l’information que si elle est dans les données [d’origine] donc du coup on ne montre pas d’information qui n’étaient pas dans les données d’origine. »
- Jean Paoli sur la précision de l’IA : « 95 % c’est un très bon nombre. »
- Jean Paoli sur le financement en France : « Je ne pense pas qu’il y a assez de financement [sérieux] en France et en Europe… les valorisations sont plus faibles et le et ça ça coûte ça ça compte beaucoup. »
- Jean Paoli sur l’attraction des talents : « Le fait que ce soit français ici et ça nous ramène pourquoi nous ouvrons en fait notre notre filiale ici c’est les talents c’est tout hein c’est vraiment une question de talent moi je dis ça pas pour faire du Cocorico et mais c’est c’est simplement vrai hein. »