Nonostante i loro progressi, gli LLM spesso affrontano problemi significativi, tra cui la gestione della conoscenza fattuale e la riduzione delle cosiddette “allucinazioni”, ovvero la generazione di informazioni inesatte o fuorvianti. Per affrontare queste problematiche, i ricercatori di Meta AI hanno recentemente proposto una nuova architettura denominata “strati di memoria scalabili”.
I modelli linguistici tradizionali utilizzano prevalentemente “strati densi” per codificare una vasta gamma di informazioni nei loro parametri. In questi strati, tutti i parametri sono attivati simultaneamente durante l’inferenza, permettendo al modello di apprendere funzioni complesse. Tuttavia, l’aumento delle dimensioni degli strati densi comporta un incremento significativo delle risorse computazionali ed energetiche necessarie.
Al contrario, gli “strati di memoria” adottano un approccio diverso. Utilizzano meccanismi di attivazione sparsa e strutture associative simili a tabelle di ricerca per codificare e recuperare la conoscenza. Questo significa che, durante l’inferenza, solo una piccola porzione dei parametri viene attivata, rendendo il processo più efficiente dal punto di vista computazionale. Tuttavia, gli strati di memoria richiedono una maggiore quantità di memoria per immagazzinare le informazioni.
Nonostante gli strati di memoria esistano da diversi anni, la loro integrazione nelle architetture di deep learning moderne è stata limitata, principalmente a causa della mancanza di ottimizzazione per l’hardware attuale. I ricercatori di Meta AI hanno affrontato questa sfida proponendo modifiche che rendono gli strati di memoria più compatibili ed efficienti con le tecnologie hardware e software contemporanee.
L’architettura proposta da Meta consente di aumentare la capacità di apprendimento dei modelli linguistici aggiungendo più parametri senza richiedere risorse computazionali aggiuntive. Questo è particolarmente vantaggioso per applicazioni che necessitano di una vasta conoscenza fattuale ma richiedono anche velocità di inferenza elevate.
L’implementazione degli strati di memoria scalabili offre diversi vantaggi:
- Efficienza Computazionale: Grazie all’attivazione sparsa, solo una frazione dei parametri viene utilizzata durante l’inferenza, riducendo il carico computazionale.
- Maggiore Capacità di Memoria: Gli strati di memoria possono immagazzinare una quantità significativa di conoscenza fattuale, migliorando la precisione delle risposte generate dai modelli.
- Riduzione delle Allucinazioni: Con una rappresentazione più accurata della conoscenza, i modelli sono meno propensi a generare informazioni inesatte o fuorvianti.