Shanghai AI Laboratory presenta il framework NeedleBench

DiFantasy

Lug 18, 2024

Un team di ricercatori del Shanghai AI Laboratory e della Tsinghua University ha introdotto NeedleBench, un nuovo framework progettato per valutare le capacità a lungo termine dei grandi modelli linguistici (LLM).

NeedleBench è stato creato per testare quanto bene i LLM possono identificare e ragionare con le informazioni pertinenti in testi lunghi e complessi. Il framework include attività progressivamente impegnative che misurano le capacità bilingue dei modelli attraverso testi di lunghezza variabile, da 4.000 a oltre 1 milione di token. NeedleBench inserisce strategicamente dati critici a varie profondità all’interno dei testi per valutare con rigore sia il recupero delle informazioni che le capacità di ragionamento dei modelli in diversi contesti.

I ricercatori hanno anche proposto l’Ancestral Trace Challenge (ATC), un metodo per simulare la complessità delle sfide logiche presenti in compiti reali di lungo termine. Questo challenge offre un modo semplice per valutare la capacità dei LLM di gestire situazioni complesse e di lungo periodo.

I risultati dello studio indicano che gli attuali LLM hanno ancora ampi margini di miglioramento per quanto riguarda le applicazioni pratiche a lungo termine. Anche modelli avanzati come GPT-4 Turbo e Claude-3 Opus hanno avuto difficoltà con la complessità delle sfide logiche di ragionamento nel test ATC, anche in contesti relativamente brevi di circa 2.000 token.

Lo studio ha valutato una vasta gamma di LLM open source e proprietari, inclusi modelli di OpenAI, Anthropic e vari istituti di ricerca. Le prestazioni variavano ampiamente, con alcuni modelli che eccellevano in certi compiti mentre faticavano in altri.

Mentre la Cina continua a sperimentare nuovi modelli e framework, il colosso tecnologico cinese SenseTime ha recentemente presentato SenseNova 5.5 alla World Artificial Intelligence Conference di Shanghai, vantando un aumento delle prestazioni del 30% rispetto al suo predecessore e sostenendo di superare GPT-4 in diverse aree.

Il mese scorso, il Shanghai AI Laboratory e l’Università Tsinghua hanno introdotto il modello di intelligenza artificiale MotionBooth, in grado di generare interazioni realistiche uomo-oggetto, e il nuovo modello linguistico ChatGLM, che corrisponde o supera le capacità di GPT-4 in vari benchmark e attività.

Shanghai AI Laboratory presenta il framework NeedleBench

DiFantasy

Di Fantasy

Articoli correlati

xAI introduce la Quality Mode per Grok per la generazione di immagini e video con maggiore precisione strutturale

Netflix rilascia VOID, l’AI che rimuove oggetti dai video mantenendo la coerenza fisica della scena

Copilot e le clausole “solo per intrattenimento” nei servizi AI di Microsoft

Ultimi Post

xAI introduce la Quality Mode per Grok per la generazione di immagini e video con maggiore precisione strutturale

Netflix rilascia VOID, l’AI che rimuove oggetti dai video mantenendo la coerenza fisica della scena

Copilot e le clausole “solo per intrattenimento” nei servizi AI di Microsoft

Sistemi multi-agente: i modelli AI si proteggono tra loro