C’è qualcosa che da tempo circola nei corridoi del mondo tecnologico, ma che ora esce allo scoperto con forza: le piattaforme social non sono solo fonti di distrazione o comunità virtuali, sono depositarie di un patrimonio enorme di dati — conversazioni, opinioni, voci, linguaggi. E proprio uno dei custodi più ricchi di questo patrimonio, Reddit, ha deciso che il valore di ciò che concede va riconosciuto in modo ben diverso da quanto fatto finora.

Fino ad oggi, Reddit ha un accordo non leggero ma forse considerato ormai superato con Google: la piattaforma fornisce ai modelli di intelligenza artificiale del colosso dati che vengono usati per “allenare” queste intelligenze, cioè per insegnare all’IA come parlare, capire, replicare certe logiche umane. In cambio, Reddit riceve una cifra consistente — si parla di 60 milioni di dollari all’anno — ma Reddit ritiene che questo compenso non riflette più il reale valore che i suoi contenuti hanno acquisito in un’era in cui i modelli linguistici generativi — quelli che producono testo, risposte, conversazioni — dipendono fortemente dalla qualità, varietà e freschezza dei dati.

Quello che Reddit sta proponendo ora è una revisione dell’accordo, una rinegoziazione che porti compensi più alti, ma non in modo fisso: l’idea è di introdurre un sistema dinamico, che riconosca alla piattaforma un guadagno proporzionale all’importanza che i suoi dati hanno per i modelli AI di Google. Non si tratta solo di tardare un aggiornamento rispetto al passato, ma di ridefinire il rapporto tra chi genera contenuti e chi ha bisogno di quei contenuti per costruire intelligenze artificiali capaci, verosimili, aggiornate. Reddit non vuole più essere “solo” fonte passiva, vuole essere riconosciuta come interlocutore strategico in un ecosistema in cui i dati sono petrolio, sono linfa vitale.

Reddit è considerata da molti come una vera “miniera d’oro” per l’IA non tanto perché produce testi “ufficiali” o contenuti editoriali raffinati, ma perché nelle sue pagine si trovano discussioni autentiche, dibattiti reali, opinioni non filtrate, linguaggio che evolve, argomenti che cambiano in tempo quasi reale. In quel caos, in quella ricchezza, stanno caratteristiche difficili da replicare altrove: ironia, contesto, linguaggio colto e colloquiale, slang, riferimenti culturali… tutte sfaccettature che danno spessore ai modelli di linguaggio quando imparano a generare risposte che suonano “umane”. E in un momento in cui si discute sempre di più dell’importanza della qualità della generazione automatica, dei bias, degli errori, del fatto che molti testi prodotti dalle IA suonano artificiali o decontestualizzati, avere a disposizione conversazioni genuine diventa un vantaggio molto concreto.

Ma il valore crescente dei contenuti di Reddit non è solo questo. È anche una questione di numeri e di scala: milioni di utenti che ogni giorno postano, rispondono, interagiscono, aprono nuovi thread su argomenti che cambiano, addirittura inventano nuovi linguaggi, nuove forme di espressione. Da questo flusso Reddit ottiene un certo appeal per le IA che vogliono cogliere non solo fatti, ma toni, sfumature, ambiguità, critica, opinione. In questo panorama, ottenere un compenso fisso e predeterminato può sembrare poco, se si considera che con l’evoluzione dell’IA, il valore attribuito a quelle sfumature espressive è cresciuto moltissimo.

Dal lato di Google, la questione non è semplice. Da una parte, avere accesso a contenuti vari, ricchi, aggiornati è ciò che rende i modelli più utili, più efficaci, più scorrono bene nel presente. Ma riconoscere che questi contenuti valgono di più significa che i costi aumentano, che le negoziazioni si fanno più complesse, che le piattaforme come Reddit diventano partner potenti, non soltanto fornitori. Insomma, c’è un equilibrio da trovare: tra ciò che serve all’IA per migliorare, tra il riconoscimento economico dovuto a chi permette questo miglioramento, e tra la sostenibilità di un modello d’affari che, per Google come per altri, si regge su enormi investimenti. Reddit vuole che questi equilibri cambino, che chi produce dati abbia voce nel riconoscimento del valore che produce.

C’è infine anche un aspetto più grande, che trascende questa specifica negoziazione: è la domanda su come dovrà essere regolato il rapporto tra piattaforme di contenuti, utenti che generano contenuti, e aziende di intelligenza artificiale che usano quei contenuti. È una domanda che coinvolge diritti d’autore, trasparenza, equità, ma anche chi detiene il potere di decidere cosa “entra” nei corpus che addestrano le IA, con quale criterio, con quali esclusioni, con quali riconoscimenti economici o morali. Reddit, con questa richiesta di revisione, non sta solo negoziando più soldi, sta partecipando alla definizione di quel nuovo ordine che si sta costruendo, in cui i dati non sono risorsa gratuita ma qualcosa che ha un controvalore che deve essere esplicitato, riconosciuto, regolato.

Di Fantasy