Negli ultimi mesi il modo in cui le aziende di intelligenza artificiale raccolgono dati per valutare e migliorare i propri modelli sta attirando un’attenzione crescente. Un’inchiesta pubblicata da Wired ha portato alla luce una pratica adottata da OpenAI che apre interrogativi delicati sul confine tra innovazione e tutela delle informazioni sensibili. Secondo quanto emerso, OpenAI chiede a collaboratori esterni provenienti da professioni molto diverse di inviare esempi concreti delle loro attività lavorative reali, complete dei risultati effettivamente prodotti, per valutare le prestazioni dei suoi modelli di intelligenza artificiale di nuova generazione.
Il cuore di questa iniziativa risiede in un nuovo sistema di valutazione introdotto da OpenAI a partire da settembre dello scorso anno. L’obiettivo dichiarato è confrontare in modo diretto le prestazioni degli esperti umani e quelle dei modelli di intelligenza artificiale in ambiti professionali reali, utilizzando questi confronti come uno degli indicatori chiave nel percorso verso l’intelligenza artificiale generale. Per farlo, l’azienda ha avviato una collaborazione con reti di appaltatori e società specializzate nella raccolta di dati di apprendimento, tra cui Handshake AI, chiedendo ai collaboratori di descrivere e caricare lavori che hanno realmente svolto nel loro impiego a tempo pieno.
La richiesta non si limita a riassunti o descrizioni generiche. I contraenti devono presentare compiti complessi e di lunga durata, condensati in un’unica attività, allegando i risultati effettivi prodotti in ambito professionale. Parliamo di documenti Word, PDF, presentazioni PowerPoint, fogli Excel, immagini o repository di codice, ovvero materiali che normalmente rappresentano l’output finale di un lavoro reale. OpenAI sottolinea più volte che il compito deve essere qualcosa che il collaboratore ha realmente svolto, includendo sia le istruzioni ricevute da un superiore o da un collega, sia il risultato concreto prodotto in risposta a quelle istruzioni.
Un esempio citato nei documenti interni riguarda un incarico svolto da un senior lifestyle manager che lavora per un servizio di concierge di lusso dedicato a clienti con patrimoni molto elevati. In questo caso, il collaboratore ha dovuto presentare un PDF professionale di due pagine che descriveva un itinerario di sette giorni in yacht alle Bahamas, realizzato per una famiglia reale alla sua prima visita nell’arcipelago. Questo tipo di materiale, estremamente specifico e vicino a un contesto commerciale concreto, rende evidente quanto OpenAI punti a dati che riflettano fedelmente il lavoro umano nel mondo reale.
Consapevole delle criticità, OpenAI ha incluso nei propri documenti interni una serie di avvisi e linee guida volte a ridurre i rischi. Ai collaboratori viene richiesto di rimuovere o anonimizzare informazioni personali, segreti commerciali, strategie interne non divulgate e dettagli su prodotti non ancora pubblici. In alcuni casi viene menzionato anche uno strumento interno, chiamato “Superstar Scrubbing”, progettato per aiutare a eliminare informazioni riservate dai materiali caricati. Nonostante queste precauzioni, il sistema si basa in larga parte sul giudizio e sull’attenzione del singolo collaboratore, ed è proprio qui che emergono le principali preoccupazioni.
Diversi esperti legali hanno infatti sollevato dubbi significativi. Evan Brown, avvocato specializzato in proprietà intellettuale, ha osservato che laboratori di ricerca sull’intelligenza artificiale che raccolgono informazioni riservate tramite reti così ampie di appaltatori potrebbero esporsi a cause legali per violazione di segreti commerciali. Anche documenti parzialmente oscurati, se provenienti da lavori precedenti, potrebbero infrangere accordi di non divulgazione o portare a fughe di informazioni sensibili. Secondo Brown, il rischio è amplificato dal fatto che l’istituto di ricerca fa affidamento in misura eccessiva sul giudizio del collaboratore nel valutare cosa possa o meno essere condiviso.
Questo caso non va letto come un episodio isolato, ma come un segnale di una trasformazione più ampia nel mercato dei dati per l’intelligenza artificiale. Le grandi aziende del settore, tra cui OpenAI, Anthropic e Google, gestiscono già reti estese di appaltatori per garantire dati di alta qualità. In passato la raccolta era spesso delegata a società esterne come Surge, Mercor o Scale AI, ma negli ultimi anni i costi sono aumentati sensibilmente e la complessità dei compiti richiede competenze sempre più elevate. Di conseguenza, il mercato dei dati di apprendimento dell’AI si è evoluto in una vera e propria industria multimiliardaria, con valutazioni che riflettono l’importanza strategica di questi asset.
OpenAI, inoltre, non si limita a questa singola modalità di acquisizione dei dati. Secondo quanto riportato, l’azienda avrebbe esplorato anche la possibilità di ottenere informazioni aziendali reali attraverso asset provenienti da aziende fallite o in liquidazione, chiedendo chiarimenti sulla possibilità di proteggere dati interni come documenti ed e-mail anonimizzati. In almeno un caso, la trattativa non è andata avanti proprio per l’incertezza sulla completa rimozione delle informazioni personali.
Nel complesso, questa vicenda mette in luce la tensione crescente tra l’esigenza di sviluppare agenti di intelligenza artificiale sempre più capaci di automatizzare attività aziendali reali e la necessità di tutelare segreti commerciali, dati sensibili e obblighi contrattuali. La ricerca di un’AI in grado di competere con gli esseri umani in contesti professionali concreti spinge le aziende a cercare dati sempre più realistici e dettagliati, ma ogni passo in questa direzione aumenta anche i rischi legali e reputazionali. Il caso OpenAI dimostra come il futuro dell’intelligenza artificiale non si giochi solo sul piano tecnico, ma anche su quello giuridico ed etico, dove il modo in cui i dati vengono raccolti può diventare cruciale quanto le prestazioni dei modelli stessi.
