Un nuovo indice delle allucinazioni, sviluppato dal braccio di ricerca di Galileo con sede a San Francisco, offre un’interessante prospettiva sulle prestazioni dei modelli di linguaggio di grandi dimensioni (LLM), in particolare sul modello GPT-4 di OpenAI. Questo indice mira a aiutare le aziende nella creazione, perfezionamento e monitoraggio dei LLM di livello produttivo, concentrandosi sulla riduzione delle allucinazioni.
Il rapporto, pubblicato oggi, ha analizzato quasi una dozzina di LLM open source e closed source, inclusa la serie Llama di Meta, per valutare le loro prestazioni in vari compiti e identificare quelli che manifestano meno allucinazioni durante l’esecuzione di attività diverse.
I risultati hanno dimostrato che tutti i LLM si comportano in modo diverso a seconda del compito, ma i modelli di OpenAI hanno mantenuto prestazioni costanti in tutti i contesti.
Questo indice rappresenta un passo significativo nell’affrontare il problema delle allucinazioni, che ha finora limitato l’adozione su larga scala dei modelli linguistici di grandi dimensioni in settori critici come la sanità.
Sebbene ci sia un crescente interesse da parte delle aziende nell’utilizzo dell’intelligenza artificiale generativa e dei LLM per raggiungere obiettivi aziendali, l’implementazione pratica ha presentato sfide, specialmente quando le risposte dei LLM non sono sempre 100% corrette a causa del modo in cui generano testo basato sulle conoscenze e i dati a loro disposizione, indipendentemente dalla verità.
Per affrontare questa sfida, il team di Galileo ha selezionato undici popolari LLM di varie dimensioni, sia open source che closed source, e li ha sottoposti a tre compiti comuni: domanda e risposta senza recupero generazione aumentata (RAG), domanda e risposta con RAG e generazione di testo di lunga durata.
I risultati sono stati valutati utilizzando metriche proprietarie, concentrandosi sulla correttezza e sull’aderenza al contesto.
I modelli di OpenAI, in particolare il GPT-4-0613, hanno ottenuto prestazioni eccellenti nelle domande e risposte senza RAG, dove il modello si basa sulla sua conoscenza interna. Altri modelli, come il GPT-3.5 Turbo-1106 e il GPT-3.5-Turbo-0613, hanno dimostrato buone prestazioni in questa categoria.
Nelle attività di recupero, il GPT-4-0613 è risultato il migliore in termini di aderenza al contesto, ma modelli come il GPT-3.5-Turbo-0613 e -1106 si sono avvicinati molto alle sue prestazioni. Anche il modello open source Zephyr-7b di Hugging Face ha ottenuto risultati promettenti.
Per la generazione di testi di lunga durata, GPT-4-0613 e Llama-2-70b di Meta hanno dimostrato di avere la minima tendenza alle allucinazioni, ottenendo punteggi elevati in termini di correttezza.
È importante notare che, sebbene il GPT-4 di OpenAI sia risultato il migliore in tutte le categorie, i costi associati all’utilizzo del suo API possono essere elevati. Pertanto, molti team potrebbero trovare vantaggioso utilizzare modelli come il GPT-3.5-Turbo per ottenere prestazioni simili senza spendere troppo.
Questo indice delle allucinazioni è un importante punto di partenza per le aziende che cercano di valutare i modelli LLM in modo più efficace e rapido, offrendo una panoramica delle prestazioni dei modelli in diversi compiti. Galileo intende aggiornare l’indice trimestralmente per riflettere le evoluzioni dei modelli e fornire ulteriori informazioni alle aziende che cercano il LLM perfetto per le proprie esigenze.