Microsoft ha recentemente annunciato lo sviluppo di un innovativo modello di intelligenza artificiale denominato Large Action Model (LAM), progettato per eseguire programmi Windows e completare compiti in modo autonomo.
Questo modello rappresenta un significativo passo avanti, distinguendosi per la capacità di tradurre le richieste degli utenti in azioni concrete, superando i limiti dell’elaborazione testuale tradizionale.
A differenza dei modelli linguistici convenzionali, come GPT-4, focalizzati sulla creazione e comprensione dei testi, LAM è stato specificamente addestrato per operare con i prodotti Microsoft Office e altre applicazioni Windows.
Ciò consente al modello di non limitarsi all’interazione testuale, ma di eseguire programmi, automatizzare attività su piattaforme Microsoft e controllare dispositivi integrati, trasformando idee in azioni eseguibili.
Il processo di sviluppo di LAM si articola in quattro fasi chiave:
- Pianificazione dei compiti: suddividere i compiti in passaggi logici e sequenziali.
- Apprendimento da modelli avanzati: utilizzare GPT-4 come base per convertire i piani in azioni.
- Auto-esplorazione: permettere al modello di cercare soluzioni innovative e superare ostacoli.
- Addestramento basato sulla ricompensa: migliorare la precisione esecutiva attraverso feedback positivi.
I test condotti in ambiente Microsoft Word hanno evidenziato le elevate prestazioni di LAM:
- Precisione: LAM ha completato i compiti con una percentuale di successo del 71%, rispetto al 63% di GPT-4 senza supporto visivo.
- Velocità: LAM ha eseguito l’attività in un solo secondo, contro gli 86 secondi di GPT-4.
- Confronto con GPT-4 visivo: con informazioni visive, GPT-4 ha raggiunto una precisione del 75,5%, superando di poco LAM.
Per l’addestramento di LAM, Microsoft ha utilizzato un vasto dataset composto da documenti Microsoft Word, registrazioni di azioni degli utenti e dati provenienti da applicazioni Windows, garantendo al modello una comprensione approfondita delle operazioni richieste.
Questo sviluppo apre nuove prospettive nell’automazione delle attività quotidiane, promettendo di incrementare l’efficienza e la produttività degli utenti, e segnando un ulteriore passo verso l’integrazione dell’intelligenza artificiale nelle operazioni informatiche di routine.