Immagine AI

Immagina di avere un vasto magazzino pieno di materiali, alcuni grezzi, alcuni danneggiati, altri “pericolosi” perché contengono elementi che non dovrebbero esserci. Ora pensa che invece di buttare via tutto quando trovi anche solo un oggetto compromesso, qualcuno riesca a pulirlo, rimodellarlo, togliere le parti dannose, e trasformare il materiale residuo in qualcosa di utile. È esattamente quello che propone Generative Data Refinement (GDR), la nuova frontiera della ricerca di Google DeepMind: restituire efficacia e valore a dati di addestramento altrimenti useresti ma “scartati”.

Quando si costruiscono modelli linguistici su larga scala (LLM), l’ingrediente fondamentale è il dato. Non solo quanto se ne ha, ma che sia buono, pulito, affidabile. E purtroppo, molti dati raccolti — pagine web, codici, documenti vari — vengono scartati durante la fase di pulizia delle fonti. Motivo? Spesso contengono numeri di telefono, dati personali, contenuti sensibili o imprecisi, informazioni errate o tossiche. Anche se tutta la parte “utile” del documento è valida, la presenza di una minima porzione rischiosa porta a rigettare l’intero documento. Questo spreco non è solo un dettaglio tecnico: secondo gli autori del paper “Generative Data Refinement: Just Ask for Better Data”, se continuiamo con questi criteri, nel giro di qualche anno rischiamo di esaurire la “riserva” di dati utili su cui allenare i modelli all’avanguardia.

GDR propone un approccio diverso: invece di eliminare subito tutto, si usa un modello generativo già addestrato per analizzare quei dati problematici, riconoscere ciò che è “dannoso” o sensibile, e riscriverlo in modo da preservare quanto possibile del contenuto valido. Per esempio, se un testo contiene un numero di telefono, viene rilevato e sostituito o eliminato; se ci sono dettagli sensibili, si rimuovono o anonimizzano; il resto del documento che non è problematico viene mantenuto. In questo modo, il documento non buono non è completamente perso, ma diventa “rifinito” (refined) per poter servire comunque.

Questo “riscrivere selettivo” non è recente come idea, ma la differenza sta nel modo e nella scala: GDR usa modelli generativi potenti, prompt progettati con cura, e verifica che la versione rifinita soddisfi criteri specifici (assenza di PII – “Personally Identifiable Information”, riduzione di tossicità, sicurezza). E, secondo i risultati presentati, supera di gran lunga molte soluzioni attuali per anonimizzazione o pulizia standard.

Uno dei grandi vantaggi è che molti dati che oggi vengono scartati possono essere recuperati e usati, aumentando la quantità (e la varietà) del materiale di addestramento. Questo aiuta non solo a rallentare il problema dell’esaurimento dei dati, ma anche a migliorare le prestazioni dei modelli, perché più dati, diversi, ben puliti aiutano la generalizzazione.

Inoltre, GDR si comporta molto bene nei test comparativi con strumenti tradizionali. Per anonimizzazione di PII (dati personali identificabili), il sistema ha mostrato risultati migliori in termini di precisione e “richiamo” (recall) rispetto a metodi industriali esistenti: riconosce più casi giusti, commette meno errori nel rimuovere dati che non avrebbero bisogno di essere rimossi.

C’è anche il tema della “detossificazione” del testo: togliere contenuti offensivi, violenti, tossici. Anche qui GDR dimostra di essere capace di pulire contenuti molto “sporchi” (come discussioni problematiche online) preservando però il senso, la struttura, la varietà del contenuto.

Non tutto è già risolto. GDR è stato testato finora su testi e codice, ma non ancora su altri tipi di dati come audio, video, immagini complesse. Applicare questo tipo di raffinamento su dati audiovisivi è molto più difficile: riconoscere cosa è “sensibile” o “dannoso” in un video o in un audio richiede strumenti e criteri diversi.

C’è anche il costo computazionale: riscrivere milioni di documenti con modelli generativi costa tempo, risorse, calcolo. Serve che questi metodi siano efficienti per essere usati su larga scala. Gli autori mostrano che versioni più piccole dei modelli possono avvicinarsi alle prestazioni di quelli più grandi, se ben adattate e con pochi esempi (few-shot) o con fine-tuning. Questo aiuta a mitigare i costi, ma non elimina la sfida.

Un altro rischio riguarda la accuratezza: il modello generativo deve capire bene il contesto per non eliminare qualcosa che è utile oppure per non lasciare nascosti elementi problematici. Richiede prompt ben progettati, valutazioni umane di controllo, verifiche. E bisogna anche garantire che non si introducano errori o distorsioni durante la riscrittura.

Se GDR verrà adottato su larga scala, può cambiare profondamente il modo in cui si costruiscono i dataset per l’AI. Invece di considerare i dati problematici come “spazzatura” da buttare, diventeranno materie prime da lavorare e rifinire. Questo può allungare la vita utile dei dati disponibili, permettere ai modelli futuri di attingere a risorse che oggi restano inutilizzate.

Può anche avere impatti sulla privacy, sulla fiducia verso i modelli AI. Se gli utenti capiscono che esistono metodi validi per anonimizzare, rimuovere rischi reali derivanti dall’uso di dati personali, ciò può migliorare la percezione pubblica della sicurezza dell’AI.

Infine, può rappresentare un passo importante verso modelli “più sostenibili”: non solo nel senso ambientale, ma nel senso di non sprecare dati, non dover generare tutto da zero, non dover ricorrere pesantemente a dati sintetici che spesso non hanno la stessa ricchezza, varietà, realismo dei dati reali puliti. GDR combina realismo e sicurezza.

Di Fantasy