Microsoft e la Tsinghua University hanno sviluppato una nuova architettura per modelli linguistici di grandi dimensioni (LLM) chiamata Differential Transformer (Diff Transformer), progettata per migliorare la capacità di recupero delle informazioni e ridurre il rumore nei dati. Questo progresso è significativo per applicazioni come la generazione aumentata dal recupero (RAG) e l’apprendimento in contesto (ICL).
I modelli Transformer, che costituiscono la base della maggior parte degli LLM, utilizzano un meccanismo di attenzione per dare peso a diverse parti della sequenza di input. Tuttavia, studi hanno dimostrato che i Transformer spesso faticano a recuperare informazioni chiave da contesti lunghi, portando a un fenomeno noto come “lost-in-the-middle”. Furu Wei, Partner Research Manager di Microsoft Research, ha spiegato che i Transformer tendono a focalizzarsi su informazioni irrilevanti a causa della loro struttura di attenzione.
Per superare queste limitazioni, il team di ricerca ha creato il Diff Transformer, che utilizza un meccanismo di “attenzione differenziale”. Questo approccio riduce il rumore e amplifica l’attenzione su parti significative dell’input. A differenza del metodo classico, che calcola l’attenzione su tutti i vettori di query e chiave, l’attenzione differenziale divide questi vettori in due gruppi e crea due mappe di attenzione separate. La differenza tra queste mappe viene quindi utilizzata per determinare i punteggi di attenzione, consentendo al modello di concentrarsi meglio sulle informazioni rilevanti.
I test hanno dimostrato che il Diff Transformer supera costantemente i tradizionali modelli Transformer in vari benchmark, mostrando miglioramenti significativi anche con modelli di dimensioni ridotte. Ad esempio, un modello Diff Transformer da 3 miliardi di parametri ha ottenuto risultati migliori rispetto a modelli Transformer simili. Inoltre, il nuovo approccio si è dimostrato particolarmente efficace con contesti di grandi dimensioni, migliorando il recupero di informazioni chiave e riducendo le allucinazioni.
Sebbene i risultati siano promettenti, i ricercatori stanno lavorando per adattare il Diff Transformer a modelli di dimensioni maggiori e set di dati di addestramento più ampi. Hanno anche in programma di estendere l’architettura ad altre modalità, come dati visivi, audio e multimodali.
Con il rilascio del codice per il Diff Transformer, i ricercatori sperano che questa architettura possa migliorare le prestazioni in una varietà di applicazioni LLM. Wei ha concluso che, grazie a una migliore attenzione al contesto, i modelli linguistici basati su questo approccio potrebbero generare risposte più accurate e con meno errori in contesti specifici, come nei sistemi di chat e nelle applicazioni personalizzate per vari settori.