Google ha recentemente presentato una nuova innovazione che rivoluziona la gestione delle parole nella “finestra di contesto”. Questa espansione della finestra di contesto è stata adottata da molte aziende di intelligenza artificiale (AI) che forniscono modelli linguistici di grandi dimensioni (LLM) ed è in procinto di diventare un elemento fondamentale per questi modelli LLM.
Un articolo di Business Insider ha messo in luce una tecnica chiamata ‘Ring Attention’, pubblicata su arXiv da ricercatori di Google, Databricks e UC Berkeley. Questa tecnica consente l’inserimento di milioni di parole all’interno della finestra di contesto, rappresentando un significativo progresso nell’ambito.
Con il lancio competitivo dei modelli LLM quest’anno, c’è stato un crescente interesse nell’espandere la dimensione della finestra di contesto, poiché si è dimostrato che tale espansione migliora le prestazioni dei modelli. Una finestra di contesto più ampia consente al modello di apprendere da un contesto più vasto, il che significa che fornendo input più ampi e diversificati, come un intero libro, il modello LLM può fornire risposte più accurate e complete. In alcuni casi, può addirittura rivelare informazioni nuove non disponibili durante l’addestramento del modello.
In passato, c’erano limiti all’espansione della finestra di contesto a causa delle restrizioni di memoria delle GPU utilizzate per addestrare e far funzionare i modelli di intelligenza artificiale. Tuttavia, chatbot come “Claude” di Entropic hanno superato questi limiti, offrendo una finestra di contesto fino a 100.000 token, che corrispondono a circa 75.000 parole, rappresentando essenzialmente la lunghezza di un libro.
Per fare un confronto, il contesto massimo supportato da “GPT-3.5” di OpenAI è di 16.000 token, mentre il futuro modello “GPT-4” potrà gestire una finestra di contesto di 32.000 token. Il modello “MPT-7B” di Mosaic ML, acquisita da Databricks, può gestire 65.000 token, mentre la maggior parte dei modelli LLM open source si limita a 2000 token.
L’articolo di questa volta non si concentra su un modello LLM specifico, ma si basa sull’architettura “Transformer”, utilizzata come base per modelli come ChatGPT, GPT-4, Rama 2 e l’architettura di Google chiamata “Gemelli”, che si prevede verrà rilasciata prossimamente. Questa innovazione non è limitata ai modelli linguistici, ma può essere applicata anche a vari modelli di intelligenza artificiale che lavorano con immagini o video.
Il concetto alla base di questa nuova idea è quello di sfruttare al massimo le risorse delle moderne GPU, eliminando il collo di bottiglia della memoria. Il metodo utilizzato è chiamato “attenzione all’anello”, che crea una sorta di “anello di GPU” in cui i dati vengono elaborati in modo distribuito su tutte le GPU coinvolte. In questo modo, l’intero anello agisce come se fosse una singola GPU che gestisce l’intero contesto, eliminando efficacemente le restrizioni di memoria.
I ricercatori hanno spiegato che utilizzando questa tecnica di attenzione all’anello è possibile inserire milioni di parole nella finestra di contesto di un modello AI, anziché solo decine di migliaia. Inoltre, un esempio con un modello AI di 13 miliardi di parametri in esecuzione su 256 GPU NVIDIA “A100” ha dimostrato che l’utilizzo del metodo dell’attenzione dell’anello può permettere l’elaborazione di 4 milioni di finestre di contesto di token nelle stesse condizioni in cui l’approccio tradizionale consentiva solo 16.000 token. Questo significa che con lo stesso hardware è possibile eseguire 250 volte più lavoro.
In prospettiva, questa innovazione potrebbe consentire l’analisi simultanea di molti libri e addirittura video all’interno della finestra di contesto di un modello di intelligenza artificiale, aprendo nuove possibilità per l’analisi del contenuto e la generazione di risposte coerenti.