In tempi recenti, la ricerca sull’intelligenza artificiale ha fatto un importante cambio di prospettiva riguardo alle dimensioni dei modelli, concentrandosi invece sulla dimensione del contesto. Il dibattito sulla dimensione dei modelli sembra essere temporaneamente concluso, poiché si è scoperto che i Language Model più piccoli, addestrati su un gran numero di dati, sono risultati migliori rispetto ad altre soluzioni finora conosciute. Ma allora, cosa comporta la dimensione del contesto e perché è diventata improvvisamente così importante?
In realtà, l’interesse per la lunghezza del contesto non è affatto improvviso. Fin dal momento in cui l’architettura del Transformer è diventata popolare, una parte della ricerca ha lavorato per aumentare la lunghezza delle sequenze al fine di migliorare la precisione delle risposte di un modello. Tuttavia, poiché i Language Model come ChatGPT stanno per essere integrati nelle aziende, il miglioramento di questi strumenti è diventato una questione molto più rilevante.
Se un modello è in grado di considerare l’intera conversazione, avrà una comprensione del contesto più chiara e sarà in grado di generare risposte più significative e pertinenti. Questo significa che il modello ha una strategia di contesto ampia. Al contrario, se un modello è in grado di caricare solo la parte di conversazione essenziale per completare un’attività, allora ha una strategia di contesto limitata.
Nonostante tutte le cose straordinarie che i modelli di OpenAI possono fare, ChatGPT era limitato a una lunghezza del contesto di 4.096 token. Solo con la versione limitata e completa del famoso GPT-4 è stato possibile spingere questo limite a 32.768 token. Per fare un confronto con le parole, questo corrisponderebbe a una lunghezza di circa 3.000 parole. In altre parole, se superassi questo limite di parole mentre formulando una domanda, il modello semplicemente non riuscirebbe a rispondere e potrebbe generare risposte senza senso.
Ad esempio, quando è stato chiesto a ChatGPT di eseguire un controllo ortografico su un blocco di testo di 2.000 parole, il modello è stato in grado di elaborare solo tra 800 e 900 parole. Dopo questo punto, ha smesso di funzionare correttamente e ha iniziato a generare risposte fuori contesto o a formulare domande non correlate.
Poiché le richieste di risolvere il problema della lunghezza del contesto iniziano a diventare sempre più frequenti, alcuni hanno iniziato a trovare soluzioni parziali.
Il rivale di OpenAI, Anthropic AI, ha esteso notevolmente la finestra di contesto con il loro chatbot Claude, aumentando la lunghezza a 75.000 parole o 100.000 token. In un blog pubblicato dalla startup, si afferma che questa lunghezza è sufficiente per elaborare l’intero romanzo “Il grande Gatsby” in un solo tentativo. Claude ha dimostrato questa capacità: gli è stato chiesto di modificare una frase del romanzo individuando il cambiamento in soli 22 secondi.
Recentemente, Salesforce ha annunciato il lancio di una famiglia di Language Model open source chiamata CodeT5+. Questi modelli sono progettati per essere contestualmente più ricchi poiché non si basano sull’architettura di progettazione GPT.
Nel blog pubblicato da Salesforce, si spiega che le imperfezioni dei modelli autoregressivi sono il motivo principale della necessità di miglioramenti. “Ad esempio, i modelli che si basano solo sul decoder, come i Language Model basati su GPT, non sono efficaci nella comprensione di compiti come il rilevamento dei difetti e il recupero del codice. Spesso richiedono importanti modifiche all’architettura o ulteriori ottimizzazioni per adattarsi alle applicazioni specifiche”.
Per affrontare questa sfida, Salesforce ha sviluppato un’architettura flessibile di codifica-decodifica che è più scalabile e può “mitigare la discrepanza tra il pretraining e il fine-tuning”.
Inoltre, il team di ricerca di Meta AI ha recentemente pubblicato un documento intitolato “MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers” (Predizione di sequenze di milioni di byte con trasformatori multiscala). Il documento propone un nuovo approccio per affrontare il problema della lunghezza del contesto. Secondo il team di Meta AI, i modelli autoregressivi basati sui trasformatori sono eccellenti per le sequenze brevi, ma si adattano male alle sequenze lunghe come immagini ad alta risoluzione, podcast, codice o libri.
MEGABYTE, l’architettura di decodifica multiscala proposta nel documento, offre una modellazione differenziabile end-to-end di sequenze di oltre un milione di byte. Questo modello è in grado di suddividere le sequenze in patch separate e utilizzare un sottomodello locale all’interno di queste patch, nonché un modello globale che considera l’intero contesto.
Uno dei principali vantaggi di questa architettura rispetto ai modelli basati sull’autoregressione con auto-attenzione è anche il costo computazionale. MEGABYTE è in grado di ridurre significativamente i costi, consentendo l’utilizzo di modelli molto più grandi ed espressivi allo stesso costo, grazie all’impiego di livelli di feedforward per patch anziché per posizione.
I costi elevati derivanti dalla tokenizzazione nei modelli basati sui trasformatori sollevano la domanda se alla fine ne valga la pena. Anche Claude di Anthropic, che può elaborare fino a 100.000 token, potrebbe risultare costoso. Ad esempio, la lunghezza del contesto di 32.000 token di GPT-4 comporta un costo di 1,96 USD, il che potrebbe essere considerato elevato, considerando che questi strumenti sono destinati ad essere utilizzati per una vasta gamma di attività generiche all’interno delle organizzazioni.
Per un chatbot che cerca di essere tanto intelligente quanto un essere umano, il contesto è tutto. Senza di esso, un chatbot con la memoria di un pesce rosso non sarebbe molto diverso da quello che abbiamo adesso.