Durante l’era del Web 2.0, Google e altre aziende produttrici di browser hanno tratto profitto dalla vendita dei dati degli utenti agli inserzionisti. Per emergere in questo mercato monopolistico, i nuovi arrivati dovevano offrire una proposta unica che li distinguessero dalla concorrenza.
Mentre molti browser sfruttavano la privacy come fattore di vendita, Brave, un browser innovativo, offriva una funzionalità straordinaria: ricompensare gli utenti per i loro dati anonimizzati. Ciò era possibile grazie a un token basato su blockchain chiamato Basic Attention Token (BAT). Tuttavia, sembra che Brave stia ora capitalizzando l’ascesa dell’intelligenza artificiale, offrendo un’API per i dati di addestramento dell’IA, dopo che l’interesse per la blockchain si è attenuato.
La raccolta e la vendita di dati di addestramento sono diventate uno dei mercati più promettenti nell’ambito dell’intelligenza artificiale generativa. In riconoscimento di ciò, molte importanti piattaforme basate su testo, come Twitter e Reddit, hanno limitato l’accesso alle loro API. Addirittura, anche le aziende che inizialmente si concentravano sulla sicurezza dei dati e sulla privacy hanno sacrificato questi principi nel tentativo di capitalizzare sull’intelligenza artificiale.
Sono emersi rapporti secondo i quali Brave, un browser focalizzato sulla privacy, sta facendo affari vendendo l’accesso a un’API a pagamento per i dati web. La lettura dei dettagli dell’API ha sollevato dubbi sulla posizione di Brave sulla privacy e sulla sicurezza, generando al contempo preoccupazioni etiche relative al copyright dei contenuti.
Nel tentativo di sfruttare l’intelligenza artificiale, l’API di ricerca di Brave offre piani specificamente mirati all’utilizzo nei modelli di intelligenza artificiale. Gli abbonati all’API a pagamento ottengono risultati dal Web, accesso al cluster di notizie di Brave e “diritti di utilizzo dei dati per l’inferenza dell’IA”. Sembra che Brave stia sfruttando la vendita di dati di Internet per soddisfare l’appetito sempre crescente degli algoritmi di intelligenza artificiale.
Come accennato in precedenza, esiste un’alternativa all’API di ricerca di Brave, ovvero l’offerta concorrente di Bing. Tuttavia, la principale differenza è che Bing non menziona l’utilizzo dell’API per addestrare i dati degli utenti, probabilmente a causa di interessi acquisiti in OpenAI e per evitare problemi potenziali legati al copyright.
D’altro canto, Brave sembra non avere problemi a distribuire gratuitamente contenuti web. Secondo una ricerca condotta da Alex Ivanovs su StackDiary, l’output della ricerca web di Brave per l’API AI estrae fino a 260 parole in un formato leggibile dalla macchina attraverso la sua funzione “Extra Snippets”. Anche se funzionalmente simili ai “Featured Snippet” di Google, questi estratti spesso superano le 150 parole, oltrepassando i limiti del “Fair Use”.
Oltre alla funzione “Extra Snippets”, Brave offre anche dati strutturati e ricchi di informazioni dai risultati web attraverso Schema, nonché accesso alle sue funzionalità FAQ e Discussioni. Questa combinazione di funzionalità consente ai clienti paganti dell’API di estrarre dati preziosi in un dominio specifico e persino di utilizzarli per migliorare i modelli di addestramento.
Per costruire questo database, Brave fa un ampio uso del proprio crawler, che ha indicizzato oltre 8 miliardi di pagine durante il suo funzionamento. Inoltre, esegue la scansione di oltre 40 milioni di pagine ogni giorno, contribuendo così all’indice in continua crescita del motore di ricerca. Tuttavia, vendendo questi dati a un canone mensile, Brave potrebbe violare gli standard di copyright come CC BY-NC-ND, che escludono espressamente l’uso dei contenuti a scopi commerciali.
Anche se potrebbe esistere la possibilità che Brave si attenga al tipo di dati che indicizza, è difficile provarlo. Inoltre, una volta che i dati protetti da copyright sono stati utilizzati per addestrare un modello di intelligenza artificiale, non c’è modo di risalire alla fonte dei dati. Questo, insieme alla recente tendenza di vendita di API, potrebbe influenzare negativamente l’intero settore.
Le API sono nate con radici commerciali, guidate dall’API di automazione di Salesforce, considerata ampiamente la prima API al mondo. Tuttavia, questa tendenza si è rapidamente spostata verso i siti Web che fornivano servizi in formato XML o JSON, per lo più gratuitamente. Il lancio dell’API di Facebook ha probabilmente giocato un ruolo significativo nella sua crescita, e l’API di Flickr era un elemento comune sui siti Web degli anni 2000.
Tuttavia, con il valore attribuito ai dati grazie all’intelligenza artificiale, le aziende stanno tornando alla strada delle API chiuse e a pagamento. Sembra che le API stiano nuovamente diventando un modo sicuro per la monetizzazione, soprattutto grazie al valore dei dati di addestramento di alta qualità. Anche in questo mercato, Brave sta rischiando di adentrarsi in un territorio pericoloso.
Oltre al servizio API, Brave offre anche una “soluzione di dati su misura su larga scala” per le aziende che desiderano creare un prodotto al di là delle capacità offerte dall’API. Ciò suggerisce che Brave disponga di un insieme di dati simile a LAION, che comprende l’intera rete Internet. Questo approccio è rischioso, come dimostrato dall’attuale ondata di cause legali per violazione di copyright rivolte alle aziende di intelligenza artificiale.
Anche leader del settore come OpenAI e Meta sono stati recentemente accusati di utilizzare ampiamente materiali protetti da copyright per addestrare i loro algoritmi, scatenando una causa legale collettiva guidata dall’autrice Sarah Silverman. Mentre l’intelligenza artificiale continua a consumare sempre più Internet, le aziende stanno cercando di trarne profitto vendendo questi dati. Tuttavia, senza una protezione adeguata contro le leggi sul copyright, tali servizi rischiano di trovarsi sempre più in una zona grigia legale.