Google ha firmato un accordo da 60 milioni di dollari all’anno con Reddit per accedere ai contenuti in tempo reale della piattaforma. L’accordo, avvenuto poco prima dell’IPO di Reddit, ha acceso un faro su diverse questioni:
- L’obiettivo di Google: migliorare i propri modelli di intelligenza artificiale (LLM) con la vastità di dati di conversazione di Reddit.
- Le preoccupazioni per la privacy: come saranno anonimizzati i dati e come saranno utilizzati per la profilazione e la pubblicità mirata.
- La natura polarizzata di Reddit: come l’IA di Google gestirà l’incitamento all’odio, la disinformazione e la satira.
- Le sfide di addestrare un’IA su dati disordinati: come l’IA di Google distinguerà tra stereotipi dannosi e umorismo/ironia.
Reddit, la prima grande piattaforma social a quotarsi in borsa dopo Pinterest, punta a una valutazione di almeno 5 miliardi di dollari. Per aumentare le entrate e la valutazione, la società ha recentemente eliminato l’accesso gratuito alla maggior parte delle sue API, con prezzi elevati per gli sviluppatori.
L’accordo con Google offre all’azienda un accesso senza precedenti a una grande quantità di dati di conversazione. Questi dati, pur essendo in gran parte non censurati, sono organizzati e strutturati, il che li rende preziosi per l’addestramento dell’IA.
I dati di Reddit offrono un’opportunità unica per l’IA di Google per:
- Comprendere meglio la complessa comunicazione umana.
- Identificare la disinformazione attraverso la satira.
- Migliorare i modelli generativi con linguaggio informale e creatività.
Tuttavia, l’IA dovrà affrontare diverse sfide:
- Dipendenza dal contesto.
- Amplificazione dei pregiudizi.
- Limitata generalizzabilità dei dati di nicchia.
I difensori della privacy si preoccupano che i dati di Reddit, anche se anonimizzati, possano essere utilizzati per la profilazione e la pubblicità mirata. Inoltre, la disinformazione presente su Reddit potrebbe influenzare negativamente l’IA di Google.
L’accordo è ironico se si considera che Google ha recentemente messo in pausa il suo generatore di immagini per aver prodotto immagini inaccurate. L’addestramento sui dati di Reddit, sebbene più semplice, potrebbe portare a risultati simili se non si applicano filtri sofisticati e un approccio di formazione equilibrato.
L’accordo tra Google e Reddit è un passo avanti significativo per l’intelligenza artificiale, ma il suo successo dipenderà da come Google gestirà le sfide legate alla privacy, alla disinformazione e alla qualità dei dati.