La capacità di analizzare documenti composti da centinaia di pagine o di mantenere il filo logico in conversazioni protratte per mesi è stata a lungo considerata una delle sfide più ardue per l’intelligenza artificiale moderna. Nonostante i modelli linguistici di grandi dimensioni abbiano fatto passi da gigante, la loro efficacia tende a crollare drasticamente quando si trovano a gestire sequenze di testo molto più lunghe di quelle incontrate durante la fase di addestramento. In questi casi, il problema non è solo una lieve perdita di precisione, ma una vera e propria frammentazione della coerenza logica, con il modello che finisce per ignorare informazioni cruciali situate all’inizio o a metà di un lungo discorso.
Per superare questo ostacolo, Sakana AI ha presentato una tecnica innovativa chiamata DroPE, acronimo di Dropping Positional Embeddings. L’idea alla base di questa ricerca è tanto semplice quanto rivoluzionaria: gli embedding posizionali, ovvero i segnali che aiutano il modello a capire l’ordine delle parole, potrebbero essere necessari solo durante la fase iniziale di apprendimento e non durante l’utilizzo quotidiano del modello. Attualmente, la maggior parte dei sistemi utilizza una tecnica chiamata RoPE per gestire la posizione dei token, ma quando la lunghezza del testo inserito supera i limiti appresi, questa funzione distorce i calcoli del modello, impedendogli di collegare correttamente concetti distanti tra loro.
Il funzionamento di DroPE prevede un processo di ricalibrazione estremamente efficiente. Invece di addestrare nuovamente l’intero modello con testi lunghissimi, operazione che richiederebbe risorse computazionali immense e costi insostenibili, i ricercatori hanno scoperto che è possibile rimuovere gli embedding posizionali da tutti i livelli del modello dopo il suo addestramento iniziale. Successivamente, viene eseguita una breve fase di adattamento utilizzando una quantità minima di dati. Questo passaggio permette al modello di imparare a gestire le informazioni senza dipendere da una mappa posizionale rigida, diventando capace di elaborare input decine di volte più lunghi rispetto a quelli originali.
I risultati ottenuti dai test sono stati sorprendenti e hanno coinvolto modelli di diverse dimensioni, dalle versioni più piccole con poche centinaia di milioni di parametri fino ai modelli più complessi. Applicando questa tecnica a sistemi già noti come Llama 2, i ricercatori hanno osservato che il modello non solo recupera quasi interamente le sue prestazioni originali, ma le supera in compiti complessi come il riassunto di testi lunghi e le sessioni di domanda e risposta su più documenti. In particolare, nei test di ricerca di informazioni specifiche nascoste in enormi masse di dati, i modelli equipaggiati con questa tecnologia hanno mostrato una precisione nettamente superiore rispetto alle tecniche di estensione del contesto utilizzate finora.
Il vantaggio principale di questo approccio risiede nella sua praticità e nel risparmio economico. Poiché DroPE può essere integrato nei modelli esistenti con un costo computazionale quasi nullo e senza la necessità di nuove sessioni di addestramento su larga scala, questa tecnica si candida a diventare uno standard per lo sviluppo delle intelligenze artificiali di prossima generazione. Questa innovazione apre la strada a un utilizzo più fluido dei modelli linguistici in ambiti professionali delicati, come l’analisi legale di contratti chilometrici o la ricerca scientifica su vaste bibliografie, dove la capacità di ricordare e collegare ogni singolo dettaglio è fondamentale.
