Immagine AI

Il mondo della ricerca sull’intelligenza artificiale sta abbandonando i classici test basati su brevi sessioni di domande e risposte per abbracciare scenari molto più complessi e dinamici. Uno degli esperimenti più affascinanti in questo senso è stato recentemente presentato dai ricercatori dell’Università della California a San Diego, i quali hanno scelto lo storico gioco di ruolo da tavolo Dungeons & Dragons come banco di prova per valutare le capacità dei grandi modelli linguistici (LLM). Questa scelta non è dettata dal semplice intrattenimento, ma dalla necessità di misurare come un’IA sia in grado di gestire la coerenza a lungo termine, il rispetto di regole rigide e, soprattutto, l’interpretazione creativa di un personaggio in un contesto sociale simulato.

A differenza dei videogiochi tradizionali, dove l’interazione avviene tramite input fisici come mouse o tastiera, Dungeons & Dragons si fonda interamente sulla narrazione e sul dialogo. Per un’intelligenza artificiale, descrivere un attacco con la spada contro un goblin non significa solo scegliere l’azione tattica migliore, ma farlo mantenendo la personalità specifica assegnata al proprio eroe, che sia un guerriero irascibile o un mago arrogante. I ricercatori hanno implementato un sistema assistito da un motore digitale per evitare che i modelli “allucinassero” i risultati delle proprie azioni, costringendoli a muoversi in un ambiente che richiede pianificazione strategica, gestione delle risorse e collaborazione di squadra per decine di turni consecutivi.

I risultati di questa simulazione hanno offerto uno spaccato interessante sulla “psicologia” digitale dei modelli attuali. Nel confronto con i dati di oltre duemila giocatori umani esperti, le IA hanno dimostrato di saper giocare tecnicamente bene, ma hanno evidenziato curiose lacune nell’aspetto narrativo. Con il passare del tempo, la recitazione dei modelli tendeva a diventare esagerata o ripetitiva: lo stregone digitale finiva per usare frasi eccessivamente drammatiche fuori contesto, mentre il paladino si lanciava in lunghi discorsi solenni proprio nel bel mezzo della frenesia della battaglia. Questo fenomeno indica una difficoltà intrinseca nel mantenere una coerenza psicologica del personaggio su lunghi archi temporali.

L’esperimento ha inoltre messo in luce le diverse “personalità” tecnologiche dei modelli coinvolti. DeepSeek-V3 si è distinto per la capacità di generare descrizioni d’azione efficaci e dialoghi provocatori, pur mostrando una gamma limitata di sfumature caratteriali. Claude 3.5 Haiku ha invece sorpreso per la sua abilità nell’adattare il linguaggio in base alla professione del personaggio, mentre GPT-4o ha mantenuto un equilibrio solido, offrendo descrizioni ambientali vivide e una buona gestione tattica. Tuttavia, un tratto comune a tutti i modelli, specialmente quelli open source di dimensioni ridotte, è stato il calo graduale delle prestazioni negli scenari a lungo termine, dove la fatica digitale sembra tradursi in una perdita di coerenza narrativa e logica.

Di Fantasy