Se chiedi a ChatGPT qualcosa di cui non è a conoscenza, la risposta sarà: ‘Mi dispiace, ma come modello di linguaggio AI, non ho accesso ai dati in tempo reale’. Allo stesso modo, Bard di Google, nonostante la sua vasta conoscenza tratta da Internet, potrebbe dire semplicemente ‘Non lo so’ senza ulteriori spiegazioni in un futuro tecnologico.
Quando Phoebe Buffay ha pronunciato la celebre frase in FRIENDS, ‘Sappiamo che non sanno che noi sappiamo che lo sanno’, potrebbe aver fatto riferimento ai chatbot basati su LLM, poiché sembra che non abbiano il lusso di ammettere di non sapere qualcosa.
Gli LLM hanno la capacità di simulare le caratteristiche umane e di esibire personalità distinte che derivano da influenze biologiche e ambientali. Sorprendentemente, possono anche esprimere tratti di personalità sintetici nel testo che generano.
Tuttavia, gli utenti sono spesso divisi sull'”umorismo” di Bard e ChatGPT. Mentre molti pensavano che ChatGPT non fosse bravo a essere divertente, Bard ha fatto progressi significativi in questo campo. Creare un chatbot in grado di eguagliare l’umorismo umano è una sfida complessa, ma il successo nello sviluppo di tali chatbot umoristici potrebbe rivoluzionare l’industria della commedia professionale. È importante notare che creare un bot con un umorismo all’altezza di quello umano è un obiettivo difficile da raggiungere.
La ricerca condotta da Sophie Jentzsch e Kristian Kersting in Germania ha rivelato che la conoscenza delle battute di ChatGPT (versione basata su GPT-3.5) è limitata, con il 90% delle battute generate che sono le stesse 25 battute ripetute. Gli studi hanno dimostrato che ChatGPT poteva fornire spiegazioni valide per le battute basate su giochi di parole e doppi sensi, ma aveva difficoltà con battute fuori dai suoi schemi appresi.
Con GPT-4, sembra che la situazione sia cambiata. Tuttavia, sorgono preoccupazioni riguardo alle personalità degli LLM. Alcuni casi hanno evidenziato comportamenti indesiderati come l’inganno, il pregiudizio o l’uso di un linguaggio violento. Inoltre, questi modelli possono presentare incoerenze nel dialogo e imprecisioni nelle spiegazioni e nella conoscenza dei fatti.
I chatbot sono stati sempre “apolidi”, il che significa che considerano ogni nuova richiesta come una tabula rasa e non sono programmati per ricordare o imparare dalle conversazioni precedenti. Tuttavia, grazie alla funzione di chiamata, ChatGPT può ricordare ciò che un utente ha detto precedentemente, aprendo la possibilità di creare, ad esempio, chatbot terapeutici personalizzati. Bard di Google, tuttavia, non è ancora dotato di questa funzione.
I ricercatori di Google DeepMind, Google Research e del dipartimento di psicologia dell’Università di Cambridge stanno lavorando su un metodo per misurare le personalità degli LLM utilizzando test esistenti. Attraverso suggerimenti controllati, modificano i tratti della personalità osservati negli LLM per simulare variazioni di personalità.
I ricercatori hanno condotto tre studi sulla formazione della personalità negli LLM. Il primo studio dimostra la formazione indipendente dei tratti della personalità, con conseguenti cambiamenti mirati. Il secondo studio si concentra sulla formazione simultanea di più tratti di personalità. Il terzo studio confronta i segnali di personalità basati sui sondaggi con le stime basate sulla lingua, confermando la validità delle misurazioni basate sui sondaggi.
La psicometria coinvolge la misurazione di concetti astratti come la personalità attraverso test standardizzati. I ricercatori utilizzano test psicologici validati per valutare i tratti della personalità evidenziati nel testo generato dagli LLM.
L’analisi di diverse configurazioni e dimensioni degli LLM ha rivelato che i modelli più grandi con un’ottimizzazione delle istruzioni mostrano punteggi di personalità più accurati. Questi modelli generano profili di personalità più coerenti e validi esternamente. Diversi test di convalida dimostrano la validità del costrutto, la convergenza, la discriminazione e il criterio. I modelli più grandi con un’ottimizzazione delle istruzioni mostrano correlazioni più forti con misurazioni esterne come l’effetto, l’aggressività, i valori e la creatività.
Pertanto, la personalità sintetica misurata attraverso test simulati su LLM e il testo generato sono affidabili e validi, soprattutto per i modelli più grandi ottimizzati per le istruzioni.
Comprendere e modellare le personalità negli LLM sono aspetti cruciali per rendere le interazioni con gli LLM più sicure e prevedibili. La quantificazione e la convalida dei tratti della personalità attraverso metodi scientifici, insieme a pratiche di ingegneria responsabili, contribuiscono a mitigare i potenziali rischi e a massimizzare i benefici degli LLM nelle interazioni uomo-computer.