Entraîner une IA avec moins de données : le bon plan pour réduire son empreinte carbone ?

Soutenez un média indépendant

Reportages, enquêtes, initiatives et solutions en accès libre : pour un numérique plus responsable, notre rédaction compte sur vous.

Maëlys T.Maëlys T.

5 min

Entraîner une IA avec moins de données : le bon plan pour réduire son empreinte carbone ?

L'entraînement de l'intelligence artificielle repose sur une augmentation du nombre de processeurs et de cartes graphiques, ainsi qu'une hausse de la consommation électrique. Conscient·es de ces enjeux, les chercheurs·ses et les ingénieur·es en IA tentent d'optimiser les calculs en utilisant des données pertinentes, ou en optant pour des modèles moins puissants.

Sélection des données : une piste pleine de promesses

10 puissance 10 téléchargement pour les modèles de langage sur HuggingFace, un peu moins pour l'audio. Niveau similaire pour la vision. Un peu plus bas pour le multimodale

Selon les résultats présentés en mars 2025, lors des Greendays à Nantes, par une équipe de chercheurs·ses en IA de l'université Côte-d'Azur, les modèles de génération de texte ainsi que la classification de texte et d'images sont les plus téléchargés parmi ceux disponibles sur Hugging Face (société qui développe des outils IA pour l'apprentissage automatique).

Andrea Asperti, professeur à l'université de Bologne, l'a montré dans son article dédié à la rentabilité énergétique et financière de différents modèles d'IA : ceux-ci sont particulièrement consommateurs d'électricité.

Les chercheurs·ses disposent de deux options pour optimiser les procédés, suscitant de vifs débats entre elles·eux :

  • Utiliser du matériel de meilleure qualité, capable de faire fonctionner les plus gros modèles de calcul - et les plus performants.
  • Prendre des modèles de calculs plus petits, nécessitant moins de puissance tout en étant aussi performants que l'état actuel des progrès en machine learning.

En travaillant sur des modèles de classification d'images, des chercheurs·ses de l'université Côte-d'Azur, comme Tiago Da Silva Barros, ont comparé les modèles qui sont plus efficaces (tel Eva-L) ou les plus utilisés (comme Vit/b) avec ceux qui se montent les plus efficients - énergétiquement parlant (par exemple Vit/b). Problème : il est quasiment impossible de mesurer la quantité d'électricité consommée par les plus gros modèles de calcul.

Faisons un point sur l'inférence, cette étape où les algorithmes ont appris à reconnaître les modèles et sont capables de les reconnaître s'ils s'appliquent à d'autres données. Pour consommer moins d'énergie, les chercheurs·ses proposent de transférer les demandes d'inférences issues des modèles consommant trop d'énergie vers des modèles de calcul prenant en compte la consommation. Pour cela, on sélectionnerait un nombre plus petit de données avant de les envoyer aux algorithmes.

Le modèle de calcul pourrait être efficace, économisant 27,8% de consommation d'énergie, soit 31 Twh non produits (équivalant à 5 centrales nucléaires en fonctionnement !). Mais si les résultats sont prometteurs à cette étape du processus de l'apprentissage, encore faut-il s'assurer que le jeu de données sélectionné soit fiable.

Sélection des données : une fiabilité sous conditions

L'entraînement d'une intelligence artificielle consomme beaucoup d'électricité, du fait du nombre de calculs exponentiels effectués avec une quantité de données massive. Afin de limiter le nombre de données, des chercheurs·ses du LAAS (Laboratoire d'analyse et d'architecture des systèmes) CNRS, comme Oumayma Haddaji, se sont penché·es sur la fiabilité d'un nombre de données restreint pour l'entraînement de ces modèles - tout en réalisant des économies d'électricité.

L'idée : prendre un nombre de données plus petit, mais représentatives d'un ensemble. En déterminant un nombre de séries optimal, la machine devrait apprendre à reconnaître efficacement - et consommer moins d'électricité - que si elle avait fait ce travail plus longtemps avec l'entièreté du jeu de données.

Par exemple : vous voulez que votre outil reconnaisse une tablette de chocolat au lait d'origine suisse. A priori, il faudrait lui transférer un ensemble de données contenant la totalité des images de tablettes de chocolat au lait produites en Suisse. À la place, vous allez lui envoyer les images de quelques tablettes qui illustrent bien les caractéristiques qu'on attend de ce produit. Ensuite, vous rajoutez un modèle qui permettra de cesser cet entraînement une fois que la reconnaissance sera acquise.

Un jeu de données simple devrait regrouper entre 1 et 10% du jeu de données total, afin que l'entraînement consomme l'électricité de manière optimale - et qu'il soit fiable. La chercheuse Oumayma Haddaji a estimé que si davantage de paramètres complexifiant le modèle sont à prendre en compte, le jeu de données sélectionné devrait représenter un quart du jeu de données initiales.

Actuellement en cours d'étude sur des données chiffrées modifiées et des images, les méthodes utilisées (échantillonnage de similarité, échantillonnage de similarité de gradient) pour obtenir ce résultat ne sont pas égaux en matière de consommation d'énergie. Dans certains cas, la sélection de données peut consommer plus d'énergie et se révéler moins fiable que l'entraînement d'un jeu de données entier.

La réduction de l'empreinte écologique passe donc en partie par la réduction du jeu de données en retenant les plus pertinentes, surtout quand il s'agit d'images à ranger ou de chiffres. Toutefois, d'autres paramètres comme le matériel ou l'ensemble du cycle de développement sont à prendre en compte si l'on souhaite diminuer la consommation d'électricité globale des modèles.

Références :

[Photo de couverture : Ricardo Gomez Angel]

Soutenez-nous en partageant l'article :

Sur le même thème :