I ricercatori delle università di Stanford e della California-Berkeley hanno recentemente pubblicato un documento non ancora revisionato su arXiv.org, una rivista ad accesso aperto. Il documento rileva che le prestazioni e il comportamento dei modelli di linguaggio di grandi dimensioni di OpenAI, noti come ChatGPT (LLM), sono cambiati nel periodo tra marzo e giugno 2023. Secondo i ricercatori, i test condotti hanno evidenziato un notevole peggioramento delle prestazioni in alcune attività nel tempo.
Il professore James Zou di Stanford, uno degli autori del documento di ricerca, ha spiegato che la motivazione principale dello studio è stata l’osservazione di molte esperienze aneddotiche da parte degli utenti di ChatGPT riguardo al cambiamento nel comportamento dei modelli nel tempo. Alcune attività sembrano migliorare, mentre altre peggiorano. Per questo motivo, i ricercatori hanno voluto condurre uno studio sistematico valutando i modelli in diversi momenti.
Va sottolineato che i risultati del documento devono essere interpretati con cautela, poiché arXiv.org accetta praticamente tutti i documenti che rispettano le sue linee guida, ma il documento in questione non è ancora stato sottoposto a revisione paritaria o pubblicato su una rivista scientifica rispettabile. Tuttavia, Zou ha dichiarato a VentureBeat che gli autori hanno intenzione di sottoporlo a revisione da parte di una rivista accademica.
In risposta al documento e alle discussioni suscitate, Logan Kilpatrick, un sostenitore degli sviluppatori di OpenAI, ha ringraziato coloro che hanno condiviso le proprie esperienze con il sistema LLM e ha assicurato che OpenAI sta esaminando attivamente i problemi sollevati. Kilpatrick ha anche condiviso un collegamento alla pagina GitHub del framework Evals di OpenAI, utilizzato per valutare LLM e sistemi LLM attraverso un registro di benchmark open source.
I ricercatori hanno confrontato le prestazioni di GPT-3.5 e GPT-4 in diverse richieste e hanno scoperto che entrambi i modelli hanno mostrato un peggioramento nell’identificazione dei numeri primi e nella capacità di mostrare il processo di pensiero “passo dopo passo”. Inoltre, hanno generato codice con più errori di formattazione.
La precisione delle risposte riguardo all’identificazione passo dopo passo dei numeri primi è diminuita drasticamente del 95,2% su GPT-4 nel periodo di tre mesi preso in considerazione, mentre è salita al 79,4% per GPT-3.5. Una domanda relativa alla somma di un intervallo di numeri interi ha registrato un peggioramento delle prestazioni sia in GPT-4 (-42%) che in GPT-3.5 (-20%).
Matei Zahari, coautore del documento, ha twittato che il tasso di successo di GPT-4 nell’identificazione passo dopo passo dei numeri primi è sceso dal 97,6% al 2,4% tra marzo e giugno, mentre GPT-3.5 ha mostrato un miglioramento. Zahari ha anche sottolineato che il comportamento rispetto agli input sensibili è cambiato e che ci sono state modifiche significative nel comportamento dei modelli LLM.
Tuttavia, uno dei cambiamenti probabilmente considerato un miglioramento da parte dell’azienda è la maggiore resistenza di GPT-4 ai tentativi di jailbreak o di eludere le restrizioni di protezione dei contenuti tramite istruzioni specifiche, rispetto a marzo.
Secondo il documento, entrambi i modelli LLM hanno mostrato miglioramenti modesti nel ragionamento visivo. Alcuni commentatori, tuttavia, hanno sollevato dubbi sulla scelta delle attività valutate dai ricercatori, sostenendo che le metriche utilizzate potrebbero non essere adeguate per misurare cambiamenti significativi che giustifichino l’affermazione di un peggioramento sostanziale del servizio.
Arvind Narayanan, professore di informatica e direttore del Center for Information Technology Policy presso l’Università di Princeton, ha twittato che il documento è stato frainteso in quanto non dimostra un peggioramento delle capacità di GPT-4, ma piuttosto un cambiamento nel comportamento del modello. Ha anche sollevato preoccupazioni sulla valutazione dei ricercatori, sostenendo che in un compito specifico hanno confuso l’imitazione con il ragionamento.
Nonostante le discussioni sul subreddit ChatGPT e su YCombinator riguardo alle soglie considerate fallimentari dai ricercatori, molti utenti a lungo termine hanno trovato conforto nell’evidenza che i cambiamenti percepiti nell’output dell’IA generativa non fossero solo frutto della loro immaginazione.
Questo studio evidenzia una nuova area che le aziende devono tenere presente quando considerano l’utilizzo di modelli di intelligenza artificiale generativa. I ricercatori hanno coniato il termine “deriva LLM” per descrivere il cambiamento nel comportamento dei modelli e lo hanno identificato come un aspetto cruciale da comprendere per interpretare correttamente i risultati dei modelli di chat AI popolari.
Il documento sottolinea la mancanza di trasparenza attuale riguardo agli LLM chiusi e come essi si evolvano nel tempo. I ricercatori sostengono che migliorare il monitoraggio e la trasparenza sia fondamentale per evitare le insidie della deriva LLM.
Zou ha dichiarato che non ricevono molte informazioni da OpenAI o da altri fornitori sulle modifiche apportate ai loro modelli. Pertanto, ha sottolineato l’importanza di condurre valutazioni continue esterne e monitorare attentamente gli LLM. Ha anche confermato l’intenzione di continuare a farlo.
In un tweet precedente, Kilpatrick ha affermato che le API di GPT non subiscono modifiche senza che OpenAI informi gli utenti.
Le aziende che utilizzano LLM nei loro prodotti e processi interni dovranno essere attente agli effetti della deriva LLM. Zou ha avvertito che se si fa affidamento sull’output di tali modelli all’interno di un flusso di lavoro o di un sistema di software e il modello cambia improvvisamente comportamento senza una comprensione chiara dei motivi, ciò potrebbe causare problemi nel funzionamento di tutto il sistema.