Durante la conferenza sulla sicurezza DEF CON, tenutasi l’11 agosto, Craig Martell, il chief digital and AI officer del Dipartimento della Difesa degli Stati Uniti (DoD), è salito sul palco principale per condividere una serie di messaggi cruciali.
Innanzitutto, ha voluto chiarire che i grandi modelli linguistici (LLM) non sono dotati di sensibilità né capacità di ragionamento effettive. Martell, insieme al Dipartimento della Difesa, ha sottolineato l’importanza di adottare un approccio più rigoroso nello sviluppo di questi modelli al fine di mitigare i rischi di generazione di informazioni errate o allucinazioni da parte dei chatbot di intelligenza artificiale.
Martell, che è anche professore a contratto presso la Northeastern University, dove insegna machine learning (ML), ha preso parte alla sessione DEF CON sul palco principale con l’approccio di una lezione interattiva. Durante la sua presentazione, ha coinvolto attivamente il pubblico, cercando opinioni e risposte sulla questione.
L’argomento dell’intelligenza artificiale è stato di grande rilevanza nell’ambito di DEF CON, con l’AI Village, una comunità di hacker e data scientist, che ha ospitato una competizione di hacking sui LLM. Seja durante una convention come DEF CON o come parte dei programmi di bug bounty, Martell ha espresso la necessità di condurre ulteriori ricerche sulle potenziali vulnerabilità dei LLM. Egli è uno dei protagonisti nella guida dell’Iniziativa Task Force LIMA del DoD, un impegno volto a esplorare il potenziale e i confini dell’IA generativa e dei LLM all’interno del Dipartimento.
Martell ha ribadito il concetto chiave che i LLM non possiedono in realtà la capacità di ragionare. Ha sottolineato che la campagna pubblicitaria corrente intorno all’IA generativa ha creato aspettative fuorvianti riguardo alle capacità di questi modelli. Egli ha illustrato che, alla base, un modello linguistico di grandi dimensioni prevede la parola successiva in base al contesto fornito dalle parole precedenti. Nonostante l’addestramento su enormi quantità di dati e l’uso di potenti risorse di calcolo, un LLM rimane essenzialmente un modello statistico che opera in funzione del contesto storico.
Ha spiegato che l’apparenza di ragionamento dei LLM deriva dalla loro capacità di prevedere intere sequenze di parole in base al contesto, creando così l’illusione di complessità.
La mancanza di ragionamento è strettamente legata al fenomeno dell’allucinazione, ha evidenziato Martell. Ha sottolineato che la fluidità rappresenta un obiettivo primario dei LLM, ma questa ricerca di fluidità può portare a errori, inclusi gli episodi di allucinazione. “Come esseri umani, spesso siamo ingannati dalla fluidità delle risposte”, ha affermato Martell.
L’identificazione di ogni allucinazione risulta una sfida complessa e rappresenta una delle principali preoccupazioni di Martell. Ha posto un esempio retorico: se un LLM dovesse generare trenta paragrafi di testo, quanto sarebbe difficile discernere cosa rappresenta un’allucinazione e cosa no? Questa distinzione richiederà sicuramente tempo.
Martell ha evidenziato che spesso si utilizzano modelli linguistici di grandi dimensioni in contesti in cui l’utente non è un esperto nel campo. Questa è una delle vere utilità di tali modelli: porre domande in aree di scarsa competenza. Tuttavia, ha espresso preoccupazione riguardo al fatto che l’errore del modello potrebbe richiedere uno sforzo cognitivo considerevole da parte dell’utente umano per stabilire la correttezza della risposta.
L’obiettivo di Martell è promuovere un maggiore sforzo di testing e lo sviluppo di condizioni di utilizzo accettabili per i LLM in diverse situazioni.
Le condizioni accettabili dovrebbero essere supportate da metriche che dimostrino l’accuratezza del modello e la frequenza delle allucinazioni generate. In quanto responsabile dell’intelligenza artificiale presso il DoD, Martell ha affermato che, se un soldato dovesse rivolgere una domanda a un LLM riguardante l’implementazione di una nuova tecnologia sul campo, la precisione richiesta dovrebbe essere estremamente elevata.
“Richiedo una precisione del 99,999%,” ha detto. “Non posso permettermi il rischio di un’allucinazione che suggerisce una configurazione errata e potenzialmente pericolosa.”
In sintesi, l’approccio di Martell mira a condurre ulteriori test e a definire criteri di utilizzo affidabili per i LLM in diverse applicazioni, al fine di garantire la massima accuratezza e ridurre al minimo i rischi associati.