Mesure de l'impact énergétique de l'IA, une étude de Google

Ce document de Google détaille une méthodologie exhaustive pour mesurer l’impact environnemental (consommation d’énergie, émissions de carbone et consommation d’eau) de l’inférence d’IA en production, en se basant sur leur assistant Gemini. Les auteurs soulignent que les approches de mesure existantes sous-estiment souvent l’impact réel en ignorant des facteurs tels que la consommation des machines inactives ou les frais généraux des centres de données. Ils proposent une méthode « full-stack » qui inclut l’accélérateur d’IA actif, l’énergie du système hôte, la capacité de la machine inactive et les frais généraux du centre de données. Le document révèle que les efforts d’efficacité de Google ont entraîné une réduction significative des émissions par requête, et plaide pour une normalisation des mesures environnementales afin d’améliorer la transparence et d’encourager les gains d’efficacité.

2508.15734v1.pdf (671,5 Ko)

Source : Extrait de « 2508.15734v1.pdf » - « Mesurer l’impact environnemental de la livraison de l’IA à l’échelle de Google », par Cooper Elsworth et al. (Google, Mountain View, CA, USA)

Thèmes principaux et idées clés

Ce document de recherche propose et applique une méthodologie complète pour mesurer l’impact environnemental de l’inférence et de la diffusion de l’IA à grande échelle, en utilisant l’assistant Gemini AI de Google comme étude de cas. Il souligne la nécessité d’une approche de mesure standardisée et exhaustive pour obtenir des chiffres précis, comparables et exploitables, contrastant avec les estimations antérieures souvent moins précises et plus étroites. Le document met en évidence les efforts de Google pour réduire l’empreinte écologique de ses services d’IA, démontrant des améliorations significatives en matière d’efficacité énergétique, de réduction des émissions de carbone et de consommation d’eau.

1. Nécessité d’une méthodologie de mesure complète et standardisée

  • Problème actuel : Le document identifie un manque de données de première main provenant des plus grands fournisseurs de modèles d’IA et une variabilité considérable dans les estimations de l’impact environnemental de l’inférence de l’IA. Les estimations existantes varient « d’un ordre de grandeur » en raison de « suppositions de haut niveau concernant les spécifications matérielles et les paramètres du modèle », et d’un manque de consensus sur les activités à inclure dans la limite de mesure.
  • Approche proposée (Approche Complète) : Les auteurs proposent une « approche de mesure complète » qui tient compte de l’ensemble de la pile d’infrastructure de service de l’IA. Cela inclut :
  • L’énergie active des accélérateurs d’IA.
  • L’énergie du système hôte (CPU et DRAM).
  • La capacité machine inactive (provisionnée pour la fiabilité et la faible latence).
  • Les frais généraux du centre de données (mesurés par le PUE - Power Usage Effectiveness).
  • Objectifs de la nouvelle méthodologie : La méthodologie vise à :
  1. Permettre une comparaison significative entre les produits d’IA à grande échelle.
  2. Établir une « norme raisonnablement large pour la mesure, la limite », afin d’encourager des mesures précises et complètes des coûts environnementaux.
  3. Incentiver les actions pour optimiser l’ensemble des activités consommatrices d’énergie.
  • Exclusions notables : La méthodologie exclut l’énergie du réseau externe, des appareils de l’utilisateur final et de la formation des LLM et du stockage des données, en raison du manque de contrôle opérationnel ou d’un impact jugé négligeable pour un prompt texte d’assistant IA.

2. Impact environnemental du prompt texte médian de Gemini Apps

  • Chiffres clés (Mesure Complète, Mai 2025) :Énergie : « le prompt texte médian de Gemini Apps consomme 0,24 Wh d’énergie ».
  • Émissions de carbone : « génère 0,03 gCO2e ». Cela inclut 0,023 gCO2e (Scope 2 MB) et 0,010 gCO2e (Scope 1+3).
  • Consommation d’eau : « consomme 0,26 mL d’eau ».
  • **Comparaison avec d’autres activités :**L’énergie consommée par un prompt Gemini (0,24 Wh) est « inférieure à regarder neuf secondes de télévision (0,24 Wh) ».
  • La consommation d’eau (0,26 mL) équivaut à « cinq gouttes d’eau », ce qui est « des ordres de grandeur inférieurs aux estimations précédentes de 45 [18] à 50 mL [16] ».
  • **Désagrégation de la consommation d’énergie (Approche Complète) :**Accélérateurs IA actifs : 0,14 Wh (58 % du total).
  • CPU et DRAM hôtes actifs : 0,06 Wh (25 % du total).
  • Machines inactives : 0,02 Wh (10 % du total).
  • Frais généraux du centre de données (PUE) : 0,02 Wh (8 % du total).
  • Ces chiffres suggèrent qu’une « mise à l’échelle de 1,72 devrait être appliquée à la consommation d’énergie des accélérateurs IA actifs pour inclure l’énergie consommée dans un environnement de production », par rapport à une mise à l’échelle de 2 fois des estimations existantes.

3. Écart avec les estimations existantes

  • Variabilité des estimations : Le document met en évidence une « variabilité d’un ordre de grandeur dans l’énergie estimée par prompt de chat », rendant difficile la compréhension de l’impact environnemental.
  • **Comparaison directe (Approche Existante vs. Complète) :**Une « méthodologie alignée sur une approche existante, plus étroite » (ne mesurant que les accélérateurs IA actifs dans les centres de données les plus efficaces) a donné une consommation de seulement « 0,10 Wh par prompt ».
  • L’approche complète révèle une consommation d’énergie totale « 2,4 fois supérieure à l’estimation de l’approche existante ».
  1. Raisons des différences (pourquoi les chiffres de Google sont plus bas que de nombreuses estimations publiques) :Mesure in-situ : Utilisation de « données primaires sur les volumes de prompts des utilisateurs » pour une représentation plus précise de la consommation réelle.
  2. Efficacité des modèles : Les « mesures existantes de l’énergie d’inférence de l’IA considèrent des modèles open-source qui ne sont probablement pas à la frontière de Pareto des efficacités de performance ».
  3. Efficacité en production : Le « déploiement de l’inférence de l’IA dans un environnement de production peut être plus efficace que les expériences de benchmark » grâce à des techniques comme le « batching efficace des prompts à grande échelle ».

4. Gains d’efficacité significatifs chez Google

  • Réduction des émissions de 44x : Google a réalisé une « réduction de 44x des émissions totales par prompt texte médian de Gemini Apps sur 12 mois » (de mai 2024 à mai 2025).
  • **Facteurs contribuant aux gains d’efficacité :Réduction de 33x de la consommation d’énergie par prompt grâce aux « efficacités logicielles » :**Réduction de 23x due aux « améliorations du modèle ».
  • Réduction de 1,4x due à « l’amélioration de l’utilisation des machines ».
  1. Réduction de 1,4x de l’intensité des émissions MB (gCO2e/kWh) : Grâce à l’impact de l’emplacement des charges de travail et à « l’approvisionnement en énergie propre ».
  2. Réduction de 36x des émissions Scope 1+3 par prompt : Due à une « diminution des heures-machine par prompt » et à la « réduction associée des émissions incorporées amorties ».
  • Stratégies d’optimisation spécifiques : Google attribue ces gains à une combinaison d’efforts, notamment :
  • Architectures de modèles plus intelligentes : Comme Mixture-of-Experts (MoE) et le raisonnement hybride, qui réduisent les calculs de « 10 à 100x ».
  • Algorithmes et quantification efficaces : Par exemple, Accurate Quantized Training (AQT) pour des types de données plus étroits.
  • Inférence et service optimisés : Y compris le décodage spéculatif, la distillation et l’augmentation de la taille de lot.
  • Matériel conçu sur mesure : Les TPU de Google, avec la dernière génération (Ironwood) étant « 30x plus économe en énergie que notre premier TPU disponible publiquement ».
  • Inactivité optimisée : Déplacement dynamique des modèles en fonction de la demande pour minimiser l’inactivité des accélérateurs.
  • Pile logicielle ML : XLA ML compiler, Pallas kernels et Pathways.
  • Centres de données ultra-efficaces : Avec un PUE moyen de la flotte de 1,09 et une « puissance de calcul six fois supérieure par unité d’électricité qu’il y a cinq ans ». Engagement à atteindre l’objectif de « réapprovisionnement à 120 % » pour une consommation nette d’eau nulle.
  • Approvisionnement en énergie propre : En poursuivant l’ambition « sans carbone 24h/24 et 7j/7 », Google a réduit son facteur d’émissions Scope 2 MB de 30% de 2023 à 2024, « démontrant un important découplage entre la consommation d’électricité et l’impact des émissions ».

5. Importance de la transparence et de l’action continue

  • Actionnabilité et comparabilité : Le document conclut que « pour que les métriques environnementales soient exploitables et comparables entre les différents modèles et fournisseurs, il est essentiel d’envisager une limite de mesure standardisée et complète ».
  • Visibilité holistique : Cette approche holistique « fournit la visibilité nécessaire pour identifier les points chauds et inciter correctement les gains d’efficacité sur l’ensemble de la pile de service de l’IA ».
  • L’échelle compte : Bien que l’impact d’un seul prompt soit faible, « l’immense échelle de l’adoption par les utilisateurs à l’échelle mondiale signifie qu’une attention continue à la réduction du coût environnemental de l’IA est impérative ».
  • Recommandation : Les auteurs préconisent « l’adoption généralisée de ce cadre de mesure ou de cadres de mesure similaires et complets » pour garantir que « l’efficacité environnementale des capacités de l’IA progresse également ».

En résumé, ce document de Google fournit des preuves empiriques de l’impact environnemental réel de l’inférence de l’IA à l’échelle de la production, met en lumière les lacunes des méthodologies de mesure existantes et démontre les progrès significatifs réalisés par Google pour minimiser l’empreinte écologique de ses services d’IA grâce à des innovations technologiques et à des stratégies d’approvisionnement en énergie propre.