Quand les conversations sont devenues une matière première

Entre 2023 et 2024, quelque chose s'est rompu sur le web social. Pas un effondrement, pas une crise visible — plutôt un basculement discret, presque administratif, dans la manière dont les grandes plateformes ont commencé à regarder ce que produisaient leurs utilisateurs. Les messages, les fils de discussion, les commentaires sarcastiques sous une photo de chat, les longues confidences nocturnes sur Tumblr : tout cela, jusque-là considéré comme l'humus naturel des réseaux sociaux, est soudainement devenu autre chose. Une ressource. Un actif. Une matière brute.

Le déclencheur s'appelle Reddit. Le 22 février 2024, le jour même où l'entreprise dépose son dossier d'introduction en Bourse, elle annonce un accord à 60 millions de dollars par an avec Google : le géant de la recherche pourra puiser dans les archives du forum, via son API, pour entraîner ses modèles d'intelligence artificielle. Quelques mois plus tard, OpenAI signe à son tour un accord similaire, estimé autour de 70 millions de dollars annuels par les analystes. Le message envoyé au marché est limpide : ces décennies de conversations humaines, agrégées par une communauté qui croyait simplement bavarder, valent désormais des centaines de millions de dollars. Steve Huffman, PDG de Reddit, vante un modèle économique enfin durable. Les analystes financiers, eux, parlent de mine d'or.

Tumblr rejoint la danse une semaine plus tard, mais par effraction. Le 27 février 2024, le site spécialisé 404 Media révèle qu'Automattic — la maison mère de Tumblr et WordPress.com — finalise des accords avec OpenAI et Midjourney pour leur fournir l'accès aux contenus publiés sur ses plateformes. La fuite est embarrassante : des documents internes montrent qu'une première extraction de données a même ratissé trop large, embarquant par erreur des posts privés, des blogs supprimés et des contenus normalement exclus. Automattic publie en urgence un communiqué annonçant un système d'opt-out — la possibilité pour les utilisateurs de refuser, à condition de cocher la bonne case dans les bons paramètres. Mais la communauté Tumblr, refuge historique d'artistes, d'écrivains amateurs, de communautés queer et de fanfic, n'a pas attendu la procédure officielle pour réagir : la nouvelle déclenche une vague de fermetures de comptes et d'effacements rétroactifs.

X, sous la direction d'Elon Musk, emprunte un chemin parallèle mais plus solitaire. Plutôt que de vendre l'accès à ses données à des concurrents, Musk a verrouillé son robinet dès 2023 — au point d'introduire des plafonds de consultation tellement absurdes que la plateforme en est devenue inutilisable pendant quelques jours — et a réservé sa matière première à xAI, sa propre société d'intelligence artificielle, pour alimenter le chatbot Grok. En octobre 2024, X annonce une refonte de ses conditions d'utilisation, effective le 15 novembre. Le nouveau texte est explicite : tout contenu publié sur la plateforme peut être utilisé pour entraîner ses modèles d'apprentissage automatique, ainsi que ceux de « partenaires tiers » non nommés. L'option qui permettait jusque-là aux utilisateurs européens de refuser que leurs posts servent à entraîner Grok est, dans la foulée, devenue inaccessible pour beaucoup. Le principe reste le même que chez Reddit — les mots des utilisateurs deviennent du carburant — mais sans le détour d'un contrat externe.

Car ce qui frappe, ce n'est pas tant chaque accord pris isolément que la rapidité avec laquelle l'idée s'est imposée. En quelques mois, exploiter les mots de ses utilisateurs pour entraîner de l'IA est devenu non plus une stratégie audacieuse, mais une évidence de marché. LinkedIn, propriété de Microsoft — qui se trouve aussi être le principal investisseur d'OpenAI —, suit le mouvement avec une discrétion remarquable. Le 18 septembre 2024, une mise à jour silencieuse de sa politique de confidentialité révèle que la plateforme entraîne déjà ses propres modèles d'IA générative à partir des posts, articles et données de profil de ses membres, partout dans le monde — y compris au Royaume-Uni. Personne n'a été prévenu en bonne et due forme ; le paramètre permettant de refuser ne se déclenche pas par défaut.

L'épisode tourne court. En 48 heures, l'Information Commissioner's Office britannique, le régulateur des données, exige un arrêt immédiat de la pratique sur le territoire. Stephen Almond, son directeur exécutif chargé des risques réglementaires, déclare publiquement que la confiance du public dans l'IA générative dépend précisément du respect des droits à la vie privée dès le départ. LinkedIn suspend le traitement au Royaume-Uni, dans l'Espace économique européen et en Suisse. Pour le reste du monde — les États-Unis, l'Asie, le Canada, l'Amérique latine —, la collecte continue, opt-out par défaut.

Mais quelque chose, du côté des utilisateurs, n'a pas suivi.

Sur Reddit, des modérateurs ferment leurs subreddits en protestation. D'autres remplacent leurs anciens posts par des chaînes de caractères absurdes — du sabotage de données, en somme, pour rendre leurs contributions inutilisables. Sur Tumblr, on voit ressurgir un vieux geste internet : des comptes entiers passent en privé, des années d'écriture s'effacent en quelques clics. Des forums spécialisés évoquent une « grève des données ». Une phrase circule, amère, sur plusieurs plateformes à la fois : « Nos mots valent de l'or, mais pas pour nous. »

C'est sans doute le paradoxe le plus profond de cette séquence. Pendant deux décennies, les grandes plateformes avaient bâti leur valeur sur un contrat tacite : vous nous donnez votre temps et votre attention, nous vous offrons un espace pour exister et nous monétisons votre regard auprès des annonceurs. Le deal était imparfait, mais lisible. À partir de 2024, un second contrat se superpose au premier sans avoir été négocié : votre langage, vos conversations, vos archives intimes deviennent aussi une matière première vendable, à votre insu le plus souvent, pour entraîner des intelligences qui à terme produiront le même langage que vous — mais en série, à coût marginal nul, et au bénéfice d'autres.

Le web social était entré dans une nouvelle ère. Celle où les conversations des uns sont devenues l'apprentissage des autres.

Sources

Voici la liste des sources utilisées pour la vérification, organisée par thème pour que tu puisses les citer ou les ajouter en fin d'article.

Reddit – Google et OpenAI

CBS News (23 février 2024) — Annonce de l'accord à 60 M$ entre Google et Reddit https://www.cbsnews.com/news/google-reddit-60-million-deal-ai-training/
Lutzker & Lutzker (18 mars 2024) — Analyse détaillée de l'accord et de l'usage de l'API Reddit https://www.lutzker.com/ip_bit_pieces/reddits-licensing-agreement-with-google/
Columbia Journalism Review — Analyse de la stratégie globale de Reddit (mention de l'accord OpenAI à ~70 M$/an) https://www.cjr.org/analysis/reddit-winning-ai-licensing-deals-openai-google-gemini-answers-rsl.php

Tumblr / Automattic – OpenAI et Midjourney

404 Media (27 février 2024) — Article source qui a révélé l'affaire https://www.404media.co/tumblr-and-wordpress-to-sell-users-data-to-train-ai-tools/
Engadget (27 février 2024) — Reprise détaillée avec la réponse officielle d'Automattic https://www.engadget.com/tumblr-and-wordpress-posts-will-reportedly-be-used-for-openai-and-midjourney-training-204425798.html
WP Tavern (28 février 2024) — Angle communauté WordPress et critique de la politique d'opt-out https://wptavern.com/automattic-faces-scrutiny-over-ai-access-policy
Popular Science (29 février 2024) — Mise en perspective sur l'inefficacité de l'opt-out https://www.popsci.com/technology/openai-wordpress-tumblr/

X (Twitter) – Conditions d'utilisation et entraînement de Grok

Social Media Today (17 octobre 2024) — Analyse des nouvelles conditions effectives le 15 novembre 2024 https://www.socialmediatoday.com/news/x-formerly-twitter-updates-terms-service/730223/
CNN Business (21 octobre 2024) — Réaction des utilisateurs et flou sur l'opt-out https://www.cnn.com/2024/10/21/tech/x-twitter-terms-of-service
Cybernews (18 octobre 2024) — Sur la disparition de l'option d'opt-out https://cybernews.com/ai-news/updated-x-terms/
Gigazine — Déta#il des clauses ajoutées concernant les « partenaires tiers » https://gigazine.net/gsc_news/en/20241018-x-privacy-policy-ai-training/

LinkedIn – Intervention de l'ICO britannique

TechCrunch (20 septembre 2024) — LinkedIn suspend l'entraînement IA au Royaume-Uni https://techcrunch.com/2024/09/20/linkedin-has-stopped-grabbing-u-k-users-data-for-ai/
The Record (Recorded Future News) (20 septembre 2024) — Le rôle de l'ICO dans l'arrêt https://therecord.media/uk-regulator-stops-linkedin-ai-models
The Hacker News (22 septembre 2024) — Synthèse incluant la mention de Meta en parallèle https://thehackernews.com/2024/09/linkedin-halts-ai-data-processing-in-uk.html
Legal IT Insider (20 septembre 2024) — Citation complète de Stephen Almond (ICO) https://legaltechnology.com/2024/09/20/linkedin-suspends-opt-out-ai-model-training-for-uk-following-ico-concerns/

Quand les conversations sont devenues une matière première

Sources

Reddit – Google et OpenAI

Tumblr / Automattic – OpenAI et Midjourney

X (Twitter) – Conditions d'utilisation et entraînement de Grok

LinkedIn – Intervention de l'ICO britannique

À lire aussi

Commentaires

Laisser un commentaire