Il gioco dell’imitazione, noto anche come ‘The Turing Test’, sembra essere diventato obsoleto. Creato nel 1950 dal brillante scienziato informatico Alan Turing, questo test è stato a lungo utilizzato come regola empirica per valutare l’impatto dell’Intelligenza Artificiale (IA) sugli esseri umani. Il test consiste nel far svolgere a un valutatore umano il compito di distinguere se un insieme di risposte proviene da un computer o da un essere umano. Questo metodo ha avuto successo nel valutare l’efficacia di un algoritmo di intelligenza artificiale che si avvicina a quello umano, ma ora sembra essere dimenticato.
Una nuova ricerca, basata sul più grande test di Turing al mondo, mostra che gli algoritmi di intelligenza artificiale sono avanzati al punto in cui il test non funziona più. A suo merito, Turing aveva previsto che dopo 50 anni i computer sarebbero stati così bravi a giocare al gioco dell’imitazione che un interrogatore medio avrebbe avuto meno del 70% di possibilità di indovinare se si trattava di un’intelligenza artificiale o di un essere umano. In altre parole, l’IA avrebbe potuto ingannare il 30% delle persone.
Con gli algoritmi moderni, i ricercatori di intelligenza artificiale hanno scoperto che questa previsione di Turing si avvicina alla realtà, con una percentuale del 68% di indovinare correttamente i partner umani durante le conversazioni. Tuttavia, quando i partecipanti si confrontavano con un bot di intelligenza artificiale, l’indovinare correttamente scendeva al 60%. Ciò dimostra che il 40% delle persone non sapeva che stava parlando con un’IA, dimostrando che ora l’IA può ingannare gli esseri umani.
AI21 Labs, un’azienda che fornisce soluzioni di elaborazione del linguaggio naturale (NLP) e altre soluzioni di intelligenza artificiale, ha recentemente condotto un gioco chiamato “Umano o No?”. Questa applicazione è una versione online del test di Turing in cui gli utenti possono chattare con un interlocutore per 2 minuti e successivamente scoprire se stavano parlando con un essere umano o con un robot. Questo test gamificato è diventato sorprendentemente virale, generando oltre 2 milioni di conversazioni tra umani e robot.
Alcuni risultati chiave degli esperimenti hanno rivelato che gli esseri umani hanno trovato più facile identificare un altro essere umano. È interessante notare che l’India ha avuto la percentuale più bassa di indovinare correttamente, con il 63,5% rispetto al 71,3% della Francia, che è stata la percentuale più alta. Inoltre, i partecipanti più giovani tendono ad indovinare meglio rispetto a quelli più anziani.
Il gioco ha messo a confronto gli utenti umani con importanti modelli linguistici basati su IA, come GPT-4 o Jurassic-2, che avevano anche le loro peculiarità e trucchi per confondere gli utenti umani. I ricercatori hanno sollevato un punto interessante, sostenendo che i limiti percepiti da molti utenti dei grandi modelli linguistici derivavano dalla loro esperienza nell’utilizzo di ChatGPT e altre interfacce simili. Pertanto, hanno aggiunto un ulteriore livello di complessità ai loro algoritmi per renderli più difficili da indovinare.
Ad esempio, AI21 Labs ha sfruttato l’idea che i bot di solito non commettono errori grammaticali o utilizzano il gergo comune. I ricercatori hanno appositamente addestrato i loro modelli a commettere errori di ortografia comuni e a utilizzare termini alla moda per renderli più umani. Allo stesso tempo, anche gli esseri umani hanno notato che gli algoritmi avevano difficoltà a porre o rispondere a domande personali. Tuttavia, i robot erano in grado di attingere ai loro dati di addestramento per inventare storie personali, ingannando ulteriormente gli esseri umani.
Altri pregiudizi umani nei confronti dell’intelligenza artificiale includono l’idea che i robot non siano a conoscenza degli eventi attuali, che non siano in grado di affrontare domande filosofiche o etiche, che siano estremamente educati (addirittura troppo) e che non possano rispondere a domande sensibili o confidenziali. È interessante notare che, anche nel breve lasso di tempo di 2 minuti concesso per ogni tentativo, gli utenti hanno cercato di “sbloccare” gli LLM utilizzando metodi come DAN.
Questo non solo fornisce una maggiore comprensione delle capacità dei moderni modelli linguistici basati su IA, ma ha anche rivelato che gli LLM hanno ancora molte sfaccettature da esplorare. I ricercatori stanno scoprendo che le interazioni con l’IA possono essere sempre più convincenti e che le differenze tra le risposte umane e quelle generate dall’IA stanno diventando sempre più sottili.
Tuttavia, nonostante i progressi nell’inganno degli esseri umani, è importante considerare che il test di Turing è solo uno dei modi per valutare l’intelligenza artificiale. Esistono molte altre metriche e criteri che possono essere utilizzati per valutare l’efficacia e le capacità delle IA, come la comprensione del contesto, la creatività, l’etica e molte altre.
L’evoluzione della tecnologia continua a sfidare le nostre percezioni e ci spinge a riconsiderare i nostri pregiudizi e le nostre aspettative. La capacità delle IA di ingannare gli esseri umani apre nuovi scenari e solleva importanti questioni etiche e sociali.
È necessario affrontare queste sfide in modo responsabile e guidato da valori condivisi. La collaborazione tra scienziati, eticisti, legislatori e la società nel suo complesso diventa fondamentale per garantire un utilizzo etico e sicuro dell’Intelligenza Artificiale.
In conclusione, il test di Turing, sebbene possa sembrare obsoleto nella sua forma originale, ha aperto la strada a un’ampia gamma di ricerche sull’IA e ha catalizzato importanti dibattiti sulla sua evoluzione e sul suo impatto sulla società. Continuerà a essere uno dei punti di riferimento, ma dobbiamo considerarlo come parte di un quadro più ampio che tiene conto di diverse dimensioni dell’intelligenza artificiale.lato alcuni limiti del test di Turing stesso. Formulando le loro frasi in modi complicati che i robot non avrebbero capito, alcuni partecipanti al test sono stati in grado di eliminare gli umani dai robot. Questa è una limitazione del test, che verifica solo la capacità in linguaggio naturale.
La ricerca mostra chiaramente che il test sta diventando obsoleto, grazie ai progressi degli LLM e alla conoscenza dei pregiudizi che gli esseri umani hanno nei confronti dell’IA. Tuttavia, la comunità scientifica ha offerto anche altri benchmark più capaci che forniscono un quadro più completo di ciò di cui è capace l’IA. Questi test sono anche aggiornati con le capacità della moderna intelligenza artificiale.
Gary Marcus, uno psicologo americano ed esperto di intelligenza artificiale, ha scritto in passato di un algoritmo chiamato Goostman, che è stata la prima intelligenza artificiale a superare il test di Turing. Parlando dell’importanza di questo test, ha affermato : “Il vero valore del test di Turing deriva dal senso di competizione che suscita tra programmatori e ingegneri”.
A tal fine, Marcus ha offerto la sua versione del test, che ora è noto come test di Marcus. In parole povere, ha affermato che se un’intelligenza artificiale può guardare un episodio di “The Simpsons” e dire allo spettatore quando ridere, ha superato il test.
Tuttavia, il Lovelace Test 2.0 , che prende il nome da Ada Lovelace, la prima programmatrice di computer al mondo, segue un corso diverso. L’intelligenza artificiale può superare il test di Lovelace se può “sviluppare un artefatto creativo da un sottoinsieme di generi artistici che si ritiene richieda intelligenza a livello umano”. In poche parole, ciò significa che gli agenti di intelligenza artificiale che possono creare arte a livello umano sono considerati superati. Con questa logica, Midjourney ha già superato questo test, poiché un artista ha vinto un concorso utilizzando l’algoritmo di generazione dell’immagine.
Sono stati creati molti di questi sostituti per il test di Turing, ma ora sono stati sostituiti da benchmark, come ARC di Francois Chollet. Invece di utilizzare una prospettiva umana soggettiva per valutare l’efficacia di un algoritmo, ARC si affida invece al ragionamento e alla logica per trovare le capacità di determinati algoritmi. Anche se questi metodi stanno diventando sempre più ampiamente adottati, sembra che la visione originale di Turing sia caduta nel dimenticatoio.
Sebbene non sia stato ancora creato un computer pensante, l’intelligenza artificiale ha raggiunto la parità umana e, in alcuni casi, ha superato l’umanità in determinati campi. Tuttavia, la creazione di un’intelligenza vera, fluida, generalizzata è ancora lontana. Fino ad allora, dobbiamo trovare modi migliori non solo per valutare l’efficacia di un algoritmo, ma anche la sua umanità.