Immagine AI

L’azienda sudcoreana Nota ha annunciato l’implementazione di una nuova tecnologia di ottimizzazione dell’inferenza per Large Language Model progettata specificamente per gli AI PC di nuova generazione. La soluzione utilizza un approccio di calcolo eterogeneo che consente di sfruttare simultaneamente più unità di elaborazione presenti all’interno del dispositivo, tra cui GPU e NPU, con l’obiettivo di migliorare prestazioni ed efficienza energetica durante l’esecuzione locale dei modelli di intelligenza artificiale.

La tecnologia è stata sviluppata utilizzando sistemi basati sulla piattaforma Intel Lunar Lake e introduce un meccanismo di inferenza suddivisa che separa il processo di elaborazione del modello linguistico in due fasi distinte. La prima riguarda l’elaborazione dell’input e la costruzione del contesto necessario all’inferenza, mentre la seconda è dedicata alla generazione vera e propria della risposta. Invece di affidare entrambe le operazioni a una singola unità di calcolo, Nota assegna ogni fase all’acceleratore ritenuto più efficiente per quello specifico carico di lavoro.

Nel sistema sviluppato dall’azienda, la GPU viene utilizzata per le operazioni di elaborazione iniziale dell’input, mentre la NPU si occupa della fase di generazione dei token. Questa distribuzione dei compiti permette di sfruttare le caratteristiche architetturali specifiche di ciascun componente, riducendo le inefficienze tipiche delle esecuzioni che utilizzano un solo acceleratore per l’intero processo di inferenza.

Secondo i risultati comunicati dall’azienda, l’approccio ha consentito di ridurre il consumo energetico per token generato di circa il 32% rispetto a un’esecuzione basata esclusivamente sulla GPU. Parallelamente, la velocità di generazione delle risposte è aumentata di circa il 12%, mentre il tempo necessario per ottenere il primo token della risposta è stato ridotto di circa l’89% rispetto a configurazioni che utilizzano solamente la NPU.

I risultati evidenziano un cambiamento significativo nel modo in cui vengono progettati gli AI PC. Tradizionalmente le prestazioni dei sistemi di intelligenza artificiale venivano associate principalmente alla potenza della singola unità di elaborazione. L’approccio proposto da Nota suggerisce invece che il fattore determinante possa essere la capacità di orchestrare in modo efficiente CPU, GPU e NPU, assegnando a ciascun componente i compiti per cui è maggiormente ottimizzato.

Questa evoluzione rispecchia una tendenza più ampia del settore. I recenti processori destinati agli AI PC integrano infatti diverse tipologie di acceleratori all’interno dello stesso dispositivo, mentre nel mondo dei data center stanno emergendo architetture che suddividono i carichi di lavoro AI in fasi distinte distribuite tra differenti unità di elaborazione. In questo contesto, l’ottimizzazione software diventa un elemento centrale per sfruttare appieno le capacità dell’hardware disponibile.

La strategia di Nota non si limita alla sola gestione dell’inferenza. L’azienda sta lavorando anche sulla riduzione delle dimensioni dei modelli, sull’ottimizzazione dei runtime e sul miglioramento dell’interazione tra software e hardware. L’obiettivo è rendere più efficiente l’esecuzione dell’intelligenza artificiale direttamente sul dispositivo, riducendo la dipendenza dal cloud e migliorando l’esperienza utente negli scenari di AI on-device.

Con la crescente diffusione degli AI PC e l’integrazione di acceleratori dedicati nei processori di nuova generazione, tecnologie come quella sviluppata da Nota potrebbero contribuire a rendere l’esecuzione locale dei modelli linguistici più veloce, meno energivora e maggiormente adatta a un utilizzo quotidiano su notebook e workstation personali.

Di Fantasy