Un team di ricercatori del Shanghai AI Laboratory e della Tsinghua University ha introdotto NeedleBench, un nuovo framework progettato per valutare le capacità a lungo termine dei grandi modelli linguistici (LLM).
NeedleBench è stato creato per testare quanto bene i LLM possono identificare e ragionare con le informazioni pertinenti in testi lunghi e complessi. Il framework include attività progressivamente impegnative che misurano le capacità bilingue dei modelli attraverso testi di lunghezza variabile, da 4.000 a oltre 1 milione di token. NeedleBench inserisce strategicamente dati critici a varie profondità all’interno dei testi per valutare con rigore sia il recupero delle informazioni che le capacità di ragionamento dei modelli in diversi contesti.
I ricercatori hanno anche proposto l’Ancestral Trace Challenge (ATC), un metodo per simulare la complessità delle sfide logiche presenti in compiti reali di lungo termine. Questo challenge offre un modo semplice per valutare la capacità dei LLM di gestire situazioni complesse e di lungo periodo.
I risultati dello studio indicano che gli attuali LLM hanno ancora ampi margini di miglioramento per quanto riguarda le applicazioni pratiche a lungo termine. Anche modelli avanzati come GPT-4 Turbo e Claude-3 Opus hanno avuto difficoltà con la complessità delle sfide logiche di ragionamento nel test ATC, anche in contesti relativamente brevi di circa 2.000 token.
Lo studio ha valutato una vasta gamma di LLM open source e proprietari, inclusi modelli di OpenAI, Anthropic e vari istituti di ricerca. Le prestazioni variavano ampiamente, con alcuni modelli che eccellevano in certi compiti mentre faticavano in altri.
Mentre la Cina continua a sperimentare nuovi modelli e framework, il colosso tecnologico cinese SenseTime ha recentemente presentato SenseNova 5.5 alla World Artificial Intelligence Conference di Shanghai, vantando un aumento delle prestazioni del 30% rispetto al suo predecessore e sostenendo di superare GPT-4 in diverse aree.
Il mese scorso, il Shanghai AI Laboratory e l’Università Tsinghua hanno introdotto il modello di intelligenza artificiale MotionBooth, in grado di generare interazioni realistiche uomo-oggetto, e il nuovo modello linguistico ChatGLM, che corrisponde o supera le capacità di GPT-4 in vari benchmark e attività.