Au pays de l'IA, pillage de données et petits arrangements

Soutenez un média indépendant

Reportages, enquêtes, initiatives et solutions en accès libre : pour un numérique plus responsable, notre rédaction compte sur vous.

Au pays de l'IA, pillage de données et petits arrangements

Les géants de la Tech américaine comme Open AI, Google et Meta sont continuellement à l'affût des données. Ils privilégient les intérêts commerciaux au détriment du respect de celles-ci. Objectif : entraîner sans relâche leur modèle d'intelligence artificielle pour le rendre meilleur que les autres.

Une enquête du New York Times tire de nouveau la sonnette d'alarme. Dans un contexte concurrentiel intense, la préoccupation n’est pas à la protection des donnés mais à la course au profit. Pour entraîner leur modèle de langage, ces sociétés récoltent en effet une quantité massive de données, y compris du contenu protégé par la propriété intellectuelle - notamment le droit d'auteur.

Dans son enquête parue mi-avril, le New York Times a révélé que le géant de l'intelligence artificielle générative Open AI (maison-mère de Chat GPT) a collecté puis utilisé la transcription de millions d'heures de vidéos disponibles sur YouTube. Ceci, dans le but d'en tirer des données exploitables pour entraîner ses modèles de langage.

Pourtant Google, qui possède YouTube, semble avoir été au courant des pratiques d'Open AI. La société aurait fermé les yeux, ayant elle-même recours à des pratiques similaires au service de l'entraînement de ses propres modèles d'IA.

L'entreprise Meta, qui détient notamment Facebook, a quant à elle sérieusement envisagé l'acquisition de l'éditeur de livres Simon & Schuster pour exploiter l'intégralité de ses œuvres afin d'exercer ses modèles d'IA. Après avoir conclu qu'il s'agissait d'une procédure trop coûteuse et fastidieuse, Meta a tout de même réfléchi à la possibilité de mettre la main sur le catalogue de la maison d'édition... au mépris des droits d'auteur.

Ces trois fleurons de la Tech nécessitent une quantité particulièrement importante de données pour améliorer leurs systèmes d'IA. Cette dépendance soulève néanmoins de lourdes questions concernant la légalité et l'éthique de leurs pratiques.

Face à la levée de boucliers suscitée par ces méthodes, ces entreprises envisageraient des solutions telles que la création de données synthétiques. Une méthode consistant à générer artificiellement des données grâce à un algorithme entraîné sur un ensemble de données réelles. Cet algorithme produirait alors de nouvelles données, présentant les mêmes caractéristiques que celles d’origine. Autant de données synthétiques se basant sur des modèles statistiques, notamment la distribution probabiliste et l'échantillonnage. Une nouvelle alternative qui se voudrait plus éthique, mais qui devra faire ses preuves dans les mois à venir.

Références :

[Photo de couverture : Cash Macanaya]

Soutenez-nous en partageant l'article :