Negli ultimi tempi, il campo dei modelli linguistici di grandi dimensioni (LLM) ha assistito a una significativa evoluzione, con l’emergere di due approcci distinti ma complementari: i modelli concettuali di grandi dimensioni (LCM) e i modelli d’azione di grandi dimensioni (LAM). Questi sviluppi indicano una tendenza verso la specializzazione dei LLM, con l’obiettivo finale di integrarli in agenti AI completi e autonomi.

Gli LCM rappresentano un’evoluzione dei tradizionali LLM, progettati per superare le limitazioni dell’analisi basata su token. Invece di operare su singoli token, questi modelli funzionano a livello di “concetti”, permettendo un’elaborazione più astratta e una comprensione più profonda del linguaggio. Questo approccio consente agli LCM di gestire inferenze complesse, supportare piani multi-step e comprendere sfumature linguistiche con maggiore efficacia.

Un esempio di questo approccio è stato presentato da Meta in un recente studio, in cui si introduce un framework che utilizza uno spazio di embedding chiamato “SONAR”. Questo spazio supporta oltre 200 lingue e diverse modalità, permettendo al modello di generalizzare senza bisogno di ulteriori aggiustamenti. Di conseguenza, un LCM addestrato su dati in inglese può, senza ulteriori modifiche, gestire efficacemente altre lingue, nonché dati audio e visivi.

Mentre ùLCM si concentrano sull’elaborazione concettuale e inferenziale, i LAM sono progettati per tradurre le intenzioni dell’utente in azioni eseguibili. Questi modelli sono ottimizzati per interpretare comandi e automatizzare processi, sia in ambienti digitali che fisici. Ad esempio, un LAM potrebbe prendere un’istruzione come “acquista una giacca da uomo” e non solo generare un piano d’azione, ma anche interagire direttamente con siti web per completare l’acquisto per conto dell’utente.

Un esempio di LAM è stato sviluppato da un team congiunto di Microsoft, Università di Pechino, Università Tecnologica di Eindhoven e Università di Zhejiang. Questo modello è progettato per interpretare le intenzioni dell’utente e tradurle in passaggi eseguibili, adattandosi dinamicamente al feedback dell’ambiente, sia esso digitale o fisico.

La convergenza di LCM e LAM apre la strada allo sviluppo di agenti AI completi, capaci sia di pensare che di agire. Gli LCM forniscono una struttura concettuale per l’elaborazione delle informazioni e la generazione di scenari complessi, mentre i LAM traducono queste informazioni in azioni concrete. Questa sinergia potrebbe portare a sistemi AI più autonomi e versatili, capaci di comprendere contesti complessi e di interagire efficacemente con il mondo circostante.

Di Fantasy