La gestione efficiente di contesti estesi nei modelli linguistici di grandi dimensioni (LLM) rappresenta una sfida cruciale. DeepAuto, una promettente startup sudcoreana, ha recentemente presentato una soluzione innovativa per affrontare questo problema, introducendo la tecnologia “InfiniteHiP”.

I modelli linguistici di grandi dimensioni hanno rivoluzionato il modo in cui le macchine comprendono e generano il linguaggio umano. Tuttavia, l’elaborazione di contesti estesi comporta un aumento esponenziale dei tempi di calcolo e dell’uso delle risorse, spesso causando inefficienze e limitazioni nelle applicazioni pratiche.

Per superare queste limitazioni, DeepAuto, in collaborazione con il Korea Advanced Institute of Science and Technology (KAIST), ha sviluppato “InfiniteHiP” (Hierarchically Pruned Attention). Questo framework mira a ottimizzare l’elaborazione dei contesti estesi attraverso una tecnica di “potatura” gerarchica durante il calcolo dell’attenzione nei modelli linguistici.

Il cuore di InfiniteHiP risiede nella sua capacità di eliminare, durante il processo di inferenza, i token meno rilevanti, conservando solo quelli essenziali per la comprensione contestuale. Questo approccio, applicato in più fasi, consente una significativa riduzione del carico computazionale senza compromettere la qualità dell’output. A differenza di altre tecniche di potatura, InfiniteHiP supporta una completa parallelizzazione, migliorando ulteriormente l’efficienza del calcolo.

Un componente chiave di InfiniteHiP è il sistema di gestione della cache KV, progettato per ottimizzare l’utilizzo della memoria durante l’elaborazione di contesti estesi. Questo sistema garantisce un accesso rapido e efficiente ai dati necessari, riducendo al minimo l’occupazione della memoria e prevenendo colli di bottiglia durante l’inferenza.

Un’altra innovazione introdotta da DeepAuto è l’uso di Rotary Positional Embeddings (RoPE) adattivi. Questa tecnica permette al modello di gestire contesti più lunghi senza la necessità di un riaddestramento completo, facilitando l’adattamento a diverse lunghezze di input in modo flessibile ed efficiente.

I test condotti su modelli integrati con InfiniteHiP hanno mostrato risultati impressionanti. Su una GPU con 48GB di memoria, il sistema è in grado di gestire fino a 3 milioni di token, dimostrando un’efficienza senza precedenti nell’elaborazione di contesti estesi. Inoltre, rispetto ai metodi tradizionali, InfiniteHiP ha registrato un’accelerazione di 18,95 volte nel decoding di contesti da 1 milione di token e una riduzione del consumo di memoria GPU fino al 96%.

Questa tecnologia ha già trovato applicazione pratica: a partire da marzo 2025, sarà integrata nel servizio “Exio” di LG Uplus, migliorando la capacità del sistema di gestire dati complessi in modo rapido ed efficiente. DeepAuto ha inoltre avviato collaborazioni con istituzioni di rilievo come il Samsung Advanced Institute of Technology e StradVision, espandendo la portata delle sue soluzioni innovative nel settore dell’intelligenza artificiale.

Di Fantasy