Stanford lancia il primo benchmark AI per aiutare a comprendere gli LLM 

Nel mondo dell’intelligenza artificiale ( AI ) e dell’apprendimento automatico ( ML ), il 2022 è stato senza dubbio l’anno dei modelli di base , o modelli di intelligenza artificiale addestrati su vasta scala. Da GPT-3 a DALL-E , da BLOOM a Imagen: un altro giorno, a quanto pare, un altro modello di linguaggio di grandi dimensioni (LLM) o modello da testo a immagine. Ma fino ad ora, non esistevano benchmark IA per fornire un modo standardizzato per valutare questi modelli, che si sono sviluppati a un ritmo rapidamente accelerato negli ultimi due anni.

 

Gli LLM hanno particolarmente affascinato la comunità dell’IA, ma secondo il Center for Research on Foundation Models dello Stanford Institute for Human-Centered AI (HAI), l’assenza di uno standard di valutazione ha compromesso la capacità della comunità di comprendere questi modelli, così come loro capacità e rischi. 

A tal fine, oggi il CRFM ha annunciato la valutazione olistica dei modelli linguistici (HELM), che si dice sia il primo progetto di benchmarking volto a migliorare la trasparenza dei modelli linguistici e la più ampia categoria di modelli di base. 

 

“Storicamente, i benchmark hanno spinto la comunità a radunarsi attorno a una serie di problemi che la comunità di ricerca ritiene preziosi”, ha detto a VentureBeat Percy Liang, professore associato di informatica alla Stanford University e direttore del CRFM. “Una delle sfide con i modelli linguistici e i modelli di base in generale è che sono multiuso, il che rende estremamente  

HELM, ha spiegato, adotta un approccio olistico al problema valutando i modelli linguistici sulla base del riconoscimento dei limiti dei modelli; sulla misura multimetrica; e confronto diretto del modello, con un obiettivo di trasparenza. I principi fondamentali utilizzati in HELM per la valutazione del modello includono accuratezza, calibrazione, robustezza, equità, bias, tossicità ed efficienza, indicando gli elementi chiave che rendono un modello sufficiente. 

Liang e il suo team hanno valutato 30 modelli linguistici di 12 organizzazioni: AI21 Labs, Anthropic, BigScience, Cohere, EleutherAI, Google, Meta, Microsoft, NVIDIA, OpenAI, Tsinghua University e Yandex. Alcuni di questi modelli sono open-source al pubblico, altri sono disponibili tramite API commerciali e altri sono privati. 

Un “approccio globale” alla valutazione LLM
“Applaudo l’iniziativa del gruppo di Stanford”, ha detto Eric Horvitz, direttore scientifico di Microsoft, a VentureBeat via e-mail. “Hanno adottato un approccio completo alla valutazione dei modelli linguistici creando una tassonomia di scenari e misurando molteplici aspetti delle prestazioni attraverso di essi”. 

 
Il benchmarking dei modelli di linguaggio neurale è fondamentale per dirigere l’innovazione e il progresso sia nell’industria che nel mondo accademico, ha aggiunto.

“La valutazione è essenziale per far progredire la scienza e l’ingegneria dei modelli neurali, nonché per valutarne i punti di forza e i limiti”, ha affermato. “In Microsoft conduciamo rigorosi benchmark sui nostri modelli e accogliamo con favore la valutazione comparativa del team di Stanford all’interno del loro quadro olistico, che arricchisce ulteriormente le nostre conoscenze e approfondimenti”. 

Il benchmark AI di Stanford pone le basi per gli standard LLM
Liang afferma che HELM pone le basi per una nuova serie di standard del settore e sarà mantenuto e aggiornato come uno sforzo continuo della comunità. 

“È un punto di riferimento vivente che non verrà fatto, ci sono cose che ci mancano e che dobbiamo coprire come comunità”, ha detto. “Questo è davvero un processo dinamico, quindi parte della sfida sarà mantenere questo punto di riferimento nel tempo”. 

 
Molte delle scelte e delle idee in HELM possono servire come base per ulteriori discussioni e miglioramenti, ha concordato Horvitz. 

“Andando avanti, spero di vedere un processo a livello di comunità per perfezionare ed espandere le idee e i metodi introdotti dal team di Stanford”, ha affermato. “C’è un’opportunità per coinvolgere le parti interessate del mondo accademico, dell’industria, della società civile e del governo e per estendere la valutazione a nuovi scenari, come le applicazioni interattive di intelligenza artificiale, in cui cerchiamo di misurare quanto bene l’IA può potenziare le persone sul lavoro e nelle loro attività quotidiane vite.” 

Il progetto di benchmarking AI è un processo “dinamico”.
Liang ha sottolineato che il progetto di benchmarking è un processo “dinamico”. “Quando ti racconto i risultati, domani potrebbero cambiare perché potrebbero uscire nuovi modelli”, ha detto. 

 
Una delle cose principali che il benchmark cerca di fare, ha aggiunto, è catturare le differenze tra i modelli. Quando questo giornalista ha suggerito che sembrava un’analisi di Consumer Reports di diversi modelli di auto, ha detto che “è in realtà una grande analogia: sta cercando di fornire ai consumatori o agli utenti o al pubblico in generale informazioni sui vari prodotti, in questo modelli di casi”. 

Ciò che è unico qui, ha aggiunto, è il ritmo del cambiamento. “Invece di un anno, potrebbe passare un mese prima che le cose cambino”, ha detto, indicando Galactica , il modello linguistico appena rilasciato da Meta per gli articoli scientifici, come esempio. 

“Questo è qualcosa che si aggiungerà al nostro benchmark”, ha detto. “Quindi è come avere Toyota che lancia un nuovo modello ogni mese invece che ogni anno.” 

Un’altra differenza, ovviamente, è il fatto che gli LLM sono poco conosciuti e hanno una “vasta superficie di casi d’uso”, al contrario di un’auto che è solo guidata. Inoltre, l’industria automobilistica ha una varietà di standard, qualcosa che il CRFM sta cercando di costruire. “Ma siamo ancora molto presto in questo processo”, ha detto Liang. 

 
Il benchmark HELM AI è un compito ‘erculeo’
“Mi congratulo con Percy e il suo team per aver affrontato questo compito erculeo”, ha detto a VentureBeat via e-mail Yoav Shoham, co-fondatore di AI21 Labs. “È importante che una [organizzazione] neutrale e incline alla scienza lo intraprenda”. 

Il benchmark HELM dovrebbe essere sempreverde, ha aggiunto, e aggiornato regolarmente. 

“Questo è per due motivi”, ha detto. “Una delle sfide è che si tratta di un obiettivo in rapido movimento e in molti casi i modelli testati non sono aggiornati. Ad esempio, J1-Jumbo v1 ha un anno e J1-Grande v1 ha 6 mesi ed entrambi hanno versioni più recenti che non sono state pronte per essere testate da terze parti. 

 
Inoltre, per cosa testare i modelli è notoriamente difficile, ha aggiunto. “Considerazioni generali come la perplessità (che è oggettivamente definita) o il pregiudizio (che ha una componente soggettiva) sono certamente rilevanti, ma anche l’insieme dei criteri di valutazione si evolverà, man mano che comprendiamo meglio ciò che conta davvero nella pratica”, ha affermato. “Mi aspetto che le versioni future del documento perfezionino ed espandano queste misurazioni”. 

Shoham ha inviato una nota d’addio a Liang sul benchmark HELM: “Percy, nessuna buona azione rimane impunita”, ha scherzato. “Sei bloccato con esso.” 

Di ihal