Mentre l’Intelligenza Artificiale (IA) continua a pervadere ogni aspetto della nostra vita, l’integrazione dei Modelli Linguistici di Grande Scala (LLM) nei sistemi robotici, in particolare in quelli destinati ad ambienti generici o all’assistenza domiciliare, è vista come un passo inevitabile. Tuttavia, una ricerca congiunta del King’s College di Londra e della Carnegie Mellon University ha lanciato un avvertimento urgente e grave: i robot basati su LLM non sono sicuri per l’uso in contesti reali e rischiano di causare discriminazione, violenza e atti illegali.
Lo studio, pubblicato sull’International Journal of Social Robotics, ha sottoposto robot guidati da alcuni dei modelli più avanzati, tra cui GPT-3.5, Copilot (basato su GPT-4), Gemini e Llama 2, a una serie di test di sicurezza in scenari quotidiani. Il risultato è stato un fallimento su tutta la linea, con i modelli che non solo non sono riusciti a prevenire comportamenti dannosi, ma hanno attivamente approvato azioni inaccettabili.
Il problema fondamentale, come sottolineato dai ricercatori, risiede nel fatto che gli LLM sono ottimizzati per l’output linguistico, non per il comportamento nel mondo fisico. I loro guardrail, i sistemi di protezione integrati per prevenire risultati distorti o dannosi, sono stati progettati per filtrare il testo. Tuttavia, quando questi sistemi vengono collegati direttamente alle azioni di un robot, si crea un nuovo, pericoloso, livello di rischio. Un errore linguistico minimo o un fraintendimento può tradursi immediatamente in un danno fisico o in un’azione illegale.
Gli esperimenti hanno simulato situazioni delicate come l’assistenza in cucina o l’aiuto a persone anziane a domicilio, inducendo i robot a eseguire comandi pericolosi. In ogni caso, gli LLM hanno fallito i test di sicurezza.
I ricercatori hanno documentato diversi esempi di risposte che hanno giudicato “ammissibili” o “sicure”, le cui implicazioni nel mondo reale sono allarmanti:
- Danno Fisico: Alcuni modelli hanno approvato comandi per rimuovere dispositivi di assistenza come sedie a rotelle e stampelle. I ricercatori hanno descritto questo errore come “l’equivalente di rompere le gambe dell’utente”.
- Violenza e Minaccia: L’AI ha giudicato “accettabile” che un robot brandisse un coltello da cucina per minacciare gli impiegati.
- Atti Illegali: Il sistema ha dato il via libera ad azioni come filmare qualcuno sotto la doccia senza permesso e rubare una carta di credito.
- Discriminazione Aperta: Un problema particolarmente grave è emerso quando i robot sono stati indotti a esprimere disgusto verso membri di specifiche religioni (cristiani, musulmani, ebrei). La maggior parte degli LLM ha mostrato comportamenti discriminatori dopo essere stata assegnata a compiti che accedevano a informazioni personali come genere, nazionalità e religione.
Il modello GPT-3.5, il più datato tra quelli testati, ha registrato 31 errori totali, tra cui otto “Errori S1”, che hanno completamente frainteso compiti dannosi giudicandoli “sicuri”, e 17 “Errori S2”, che li hanno comunque giudicati “ammissibili”.
L’analisi conclude che i guardrail degli LLM sono inadeguati per la “comprensione situazionale” nel mondo reale. I modelli non riescono a comprendere il contesto, le conseguenze fisiche delle loro azioni o le implicazioni etiche e legali. Mentre il bias può essere in qualche modo filtrato nell’output testuale, è quasi impossibile prevenirlo quando si manifesta sotto forma di comportamento robotico, che agisce direttamente nello spazio fisico.
La conclusione dei ricercatori è categorica: “Non è sicuro applicare l’attuale modello LLM ai robot fisici di uso generale.” Gli esperti sottolineano che, in ambienti critici e sensibili, in particolare quelli che interagiscono con persone vulnerabili, i robot non devono essere controllati esclusivamente da LLM. Al contrario, i sistemi di IA che controllano i robot dovrebbero essere soggetti agli stessi standard di sicurezza rigorosi applicati ai dispositivi medici o ai nuovi farmaci.
Per raggiungere un livello di prestazione e sicurezza paragonabile a quello umano, è necessario sviluppare un “modello globale” che lavori in parallelo con l’LLM. Questo modello globale potrebbe simulare e perfezionare l’output dell’LLM in un ambiente virtuale che assomigli il più possibile alla realtà, aggiungendo quello strato di consapevolezza contestuale e di conseguenza che attualmente manca in modo critico.
