Google DeepMind e Hugging Face hanno presentato SynthID Text, uno strumento innovativo per contrassegnare e rilevare il testo generato da modelli linguistici di grandi dimensioni (LLM). SynthID Text applica una filigrana al testo generato dall’IA, consentendo di identificare se è stato prodotto da un LLM specifico. Importante è che questa operazione non influisce sul funzionamento del modello sottostante né sulla qualità del testo prodotto.
La tecnologia alla base di SynthID Text è stata sviluppata dai ricercatori di DeepMind e descritta in un articolo pubblicato su Nature il 23 ottobre. Una versione di SynthID Text è stata integrata nella libreria Transformers di Hugging Face, che è ampiamente utilizzata per sviluppare applicazioni basate su LLM. È importante notare che SynthID non serve per rilevare ogni testo generato da un LLM, ma per filigranare l’output di un modello specifico.
SynthID non richiede di riqualificare l’LLM sottostante; utilizza invece un set di parametri che consente di bilanciare la forza della filigrana e la qualità della risposta. Le aziende possono configurare diverse impostazioni di filigrana per vari modelli, mantenendo queste informazioni in modo sicuro per evitare la replicazione.
Per ogni impostazione di filigrana, è necessario addestrare un modello di classificazione che verifica se il testo contiene la filigrana specifica. I rilevatori di filigrana possono essere formati con alcune migliaia di esempi di testo normale e risposte filigranate.
La filigrana è un campo di ricerca attivo, particolarmente importante con la crescente adozione di LLM in vari settori. Aziende e istituzioni cercano metodi per identificare il testo generato dall’IA, per prevenire disinformazione, moderare contenuti e limitare l’uso di strumenti di IA nell’istruzione.
SynthID utilizza la “modellazione generativa”, una classe di tecniche di watermarking che non influiscono sulla formazione dell’LLM e modificano solo la procedura di campionamento. Questa tecnica apporta modifiche sottili e specifiche al testo generato, creando una firma statistica senza compromettere la qualità.
SynthID Text si basa su lavori precedenti sulla filigrana generativa e introduce un algoritmo di campionamento innovativo chiamato “Tournament sampling”. Questo metodo usa un processo multi-fase per selezionare il token successivo durante la generazione della filigrana, rendendola impercettibile agli esseri umani ma rilevabile da un classificatore addestrato. L’integrazione con Hugging Face facilita per gli sviluppatori l’aggiunta di funzionalità di filigrana alle loro applicazioni.
Per dimostrare la fattibilità della filigrana in ambienti di produzione, i ricercatori di DeepMind hanno condotto un esperimento che ha coinvolto quasi 20 milioni di risposte generate dai modelli Gemini, dimostrando che SynthID preserva la qualità delle risposte pur rimanendo rilevabile dai classificatori.
SynthID Text è robusto rispetto a alcune modifiche post-generazione, come il ritaglio del testo o piccole modifiche lessicali. Tuttavia, presenta anche limitazioni: è meno efficace per domande che richiedono risposte fattuali e non permette molte modifiche senza compromettere l’accuratezza. Inoltre, la qualità del rilevatore di filigrana può diminuire notevolmente se il testo viene completamente riscritto.
I ricercatori avvertono che SynthID Text non è progettato per fermare direttamente gli utenti malevoli, ma può rendere più difficile l’uso improprio dei contenuti generati dall’IA. Può essere utilizzato in combinazione con altri approcci per offrire una protezione più efficace contro l’abuso di contenuti.