L’ambito dei modelli linguistici di grandi dimensioni (LLM) è al centro di un vivace dibattito: alcuni considerano questi modelli come un passo verso l’Intelligenza Artificiale Generale (AGI), mentre altri li vedono semplicemente come strumenti innovativi. Ogni angolo dell’industria della generazione di contenuti, dagli editori agli sceneggiatori, è minacciato dalla preoccupazione di essere sopraffatti dai modelli linguistici basati sull’intelligenza artificiale. Questi strumenti dimostrano una notevole abilità nel comporre testi di ogni tipo, dalla poesia shakespeariana alla scrittura di codice in varie lingue. Tuttavia, è importante sottolineare che, nonostante la loro capacità di formulare frasi ben strutturate, mancano ancora dell’aspetto fondamentale dell’umanità: il ragionamento logico.

Yoshua Bengio, premio Turing, ha espresso durante un’intervista con AIM una prospettiva interessante. Ha fatto notare che la quantità di dati accumulati da questi sistemi è quasi paragonabile a quella che una persona leggerebbe in ogni momento di veglia per tutta la vita, vivendo mille volte. Tuttavia, questi modelli non riescono a ragionare in modo coerente. “Gli LLM sono come degli enciclopedici”, ha affermato, sottolineando la loro incapacità di ragionare come gli esseri umani, nonostante la vasta conoscenza che possiedono.

Nonostante la ricerca prolungata sull’argomento, non c’è ancora alcuna indicazione che l’aggiunta di strati, parametri e meccanismi di attenzione ai trasformatori possa colmare il divario nel ragionamento logico.

L’incertezza persiste sulla capacità dei rinomati LLM basati su testo di ragionare. I modelli addestrati esclusivamente su dati di testo presentano limitazioni intrinseche in termini di buon senso e conoscenza del mondo reale. Anche se espandere il set di dati di addestramento può apportare miglioramenti, tali modelli potrebbero ancora manifestare carenze di conoscenza impreviste. In questo contesto, i modelli multimodali, che incorporano sia il testo che le immagini, sembrano avere un vantaggio nell’affrontare alcune delle sfide.

In un articolo pubblicato su IEEE, Yann LeCun, responsabile dell’intelligenza artificiale presso Meta, concorda con le opinioni di Bengio e dipinge un quadro altrettanto realistico delle capacità di comprensione dei LLM. Egli fornisce una visione pessimistica delle abilità di comprensione esclusivamente basate sulla lettura. In confronto, i modelli multimodali dimostrano una maggiore abilità di ragionamento rispetto ai loro omologhi a senso unico. Va notato, tuttavia, che l’approccio alla logica simbolica, che ha dominato per decenni, ha avuto progressi limitati nel corso del tempo.

Mentre i modelli di linguaggio di grandi dimensioni multimodali (MLLM) rappresentano una speranza per sviluppare capacità di ragionamento nell’IA, il loro sviluppo è ancora in una fase iniziale.

Nonostante le affermazioni secondo cui i modelli linguistici non possono pensare, le grandi aziende tecnologiche stanno esplorando vie per rendere questi strumenti di intelligenza artificiale più abili nel ragionamento logico. I ricercatori della Virginia Tech e Microsoft hanno introdotto una metodologia unica chiamata “Algorithm of Thoughts” (AoT). Questo approccio guida i LLM attraverso processi di ragionamento algoritmico, aprendo nuovi percorsi di apprendimento contestuale. Ciò suggerisce che, attraverso questo metodo, i LLM potrebbero sviluppare la capacità di integrare l’intuizione nei processi di ricerca, per ottenere risultati migliori.

La ricerca cita che i LLM sono stati storicamente formati utilizzando metodi come “catena di pensiero”, “auto-coerenza” e “prompting dal minimo al massimo”. Tuttavia, tali approcci presentano limitazioni che ne minano l’efficacia generale. La metodologia AoT si propone di superare tali limiti, contrastando l’approccio “Catena di Pensiero” (CoT). Mentre la CoT occasionalmente genera passaggi intermedi errati, AoT guida il modello attraverso esempi algoritmici, ottenendo risultati più affidabili.

Recentemente, ricercatori di Google hanno pubblicato uno studio intitolato “Insegnare Modelli Linguistici a Ragionare Algoritmicamente”, mirando a migliorare le capacità di ragionamento di modelli come ChatGPT. Questo approccio si basa sull’apprendimento contestuale e introduce un algoritmo migliorato per il ragionamento. Queste scoperte suggeriscono che l’esplorazione di contesti più ampi e spiegazioni più informative potrebbe portare a risultati significativi.

A inizio anno, ricercatori di Amazon hanno ricevuto riconoscimenti per dimostrare che la distillazione della conoscenza, utilizzando la decodifica contrastiva nei modelli insegnante e il ragionamento controfattuale nei modelli studente, migliorava la coerenza del ragionamento secondo l’approccio CoT.

L’insegnamento dei LLM a ragionare razionalmente è diventato un campo di ricerca estremamente attivo. Oltre al paradigma convenzionale della catena di pensiero, i ricercatori stanno ottenendo progressi attraverso diverse metodologie. Mentre le grandi aziende tecnologiche procedono con cautela, la ricerca continua per trovare soluzioni che migliorino le capacità di ragionamento di questi modelli.

Di Fantasy