Un gruppo di ricercatori dell’Università della California, Berkeley, in collaborazione con il framework open source Letta, ha sviluppato una nuova tecnica chiamata “sleep-time computing” (calcolo durante il sonno). Questa innovazione mira a migliorare l’efficienza dei modelli linguistici di grandi dimensioni (LLM) riducendo i costi computazionali e accelerando i tempi di risposta, senza compromettere la precisione.
Tradizionalmente, quando un utente interagisce con un LLM, il modello inizia a elaborare la richiesta da zero, anche se si tratta di una domanda simile a quelle precedenti. Questo processo può essere lento e costoso. Lo sleep-time computing affronta questo problema sfruttando i periodi di inattività del modello per “pensare” in anticipo alle possibili domande future. Durante questi intervalli, il modello analizza il contesto delle interazioni precedenti e pre-elabora informazioni utili, riducendo così il lavoro necessario al momento della richiesta effettiva.
Il sistema divide il prompt in due componenti: “contesto statico” e “query dinamica”. Durante i periodi di inattività, il modello elabora solo il contesto, generando una versione pre-elaborata tramite inferenza. Quando arriva una nuova domanda, il modello utilizza questa versione pre-elaborata per rispondere rapidamente, riducendo significativamente l’uso delle risorse computazionali.
Gli esperimenti condotti utilizzando i benchmark “Stateful GSM-Symbolic” e “Stateful AIME” hanno mostrato che l’uso dello sleep-time computing con modelli come GPT-4o ha portato a una riduzione dei tempi di elaborazione fino a cinque volte, mantenendo la stessa precisione. Inoltre, l’accuratezza è migliorata del 13-18%, mentre i costi per query sono diminuiti di un fattore 2,5.
Questo approccio è particolarmente efficace per attività ripetitive in cui le domande degli utenti sono prevedibili, come nel caso di chatbot utilizzati per scopi professionali. Tuttavia, anche per query meno prevedibili o più astratte, lo sleep-time computing offre vantaggi rispetto ai metodi tradizionali.
Lo sleep-time computing rappresenta una nuova direzione nell’ottimizzazione dei LLM, permettendo loro di “pensare” durante i periodi di inattività per migliorare le prestazioni senza aumentare i costi. Questa tecnica apre la strada a sistemi di intelligenza artificiale più efficienti e reattivi, capaci di adattarsi meglio alle esigenze degli utenti.