I modelli di intelligenza artificiale basati su linguaggio, noti come LLM (Large Language Models), come ChatGPT di OpenAI, Llama 2 di Meta e Claude 2 di Anthropic, sono al centro dell’attenzione nell’ambito dell’IA, ma affrontano sfide comuni.
Una di queste sfide è garantire prestazioni di alta qualità durante una conversazione lunga e complessa con un utente. Quando la conversazione supera una certa lunghezza, anche su diversi prompt, i LLM iniziano a mostrare prestazioni inferiori, fornendo risposte di qualità inferiore. Questo è inaccettabile per le aziende che vogliono utilizzare LLM per fornire assistenza ai clienti o ai dipendenti.
Recentemente, ricercatori di Meta, MIT e Carnegie Mellon University hanno introdotto un nuovo framework chiamato “StreamingLLM”, che risolve questa sfida e permette ai LLM di mantenere prestazioni di alta qualità in conversazioni di qualsiasi lunghezza.
Gli LLM sono pre-addestrati su blocchi di dati di lunghezza specifica, ad esempio, 4.000 token per Llama 2 e altri LLM principali. Quando un utente supera questa lunghezza, anche su prompt diversi, le prestazioni degli LLM si degradano.
Il framework StreamingLLM consente agli LLM di mantenere alte prestazioni anche in conversazioni di lunghezza indefinita, in cui i token dell’utente superano la lunghezza massima prevista dalla sequenza di addestramento.
Il segreto di questo successo risiede nell’introduzione di “token di dissipazione dell’attenzione” all’inizio della conversazione. Gli LLM attribuiscono una grande attenzione ai token iniziali di una conversazione, e reintroducendoli in seguito, anche manualmente o automaticamente, si riesce a mantenere le prestazioni degli LLM quasi al massimo.
Questo significa che, anche in conversazioni molto lunghe, un LLM può continuare a fornire risposte di alta qualità. In pratica, è come se, durante una conversazione con un assistente umano, potessi semplicemente ripetere alcune parole chiave per assicurarti che mantenga la sua attenzione e continui a fornire risposte utili.
Il framework StreamingLLM offre notevoli vantaggi per applicazioni come i dialoghi multi-round, in cui il modello deve funzionare ininterrottamente senza dover fare affidamento sui dati passati. Un esempio tipico è l’assistenza clienti quotidiana.
Tuttavia, i ricercatori sottolineano che questo framework non estende la finestra di contesto degli LLM, e non garantisce che gli LLM ricorderanno tutto ciò che è stato detto in una conversazione. Tuttavia, rappresenta comunque un notevole passo avanti nella capacità degli LLM di gestire conversazioni lunghe e complesse in modo efficace.
In sintesi, StreamingLLM è un innovativo approccio che consente agli LLM di mantenere prestazioni ottimali anche in conversazioni di lunghezza estrema, migliorando notevolmente la loro utilità in una vasta gamma di applicazioni.