Stability AI, nota per i suoi modelli di intelligenza artificiale generativa come Stable Diffusion, ha annunciato una collaborazione con Arm, leader mondiale nel settore dei semiconduttori, per introdurre capacità di intelligenza artificiale generativa audio direttamente sui dispositivi mobili.

Grazie a questa partnership, è stato possibile eseguire Stable Audio Open, il modello di testo-audio di Stability AI, interamente su CPU Arm. Questo consente la generazione di effetti sonori, campioni audio ed elementi di produzione in pochi secondi, direttamente sul dispositivo e senza la necessità di una connessione internet.

L’ottimizzazione del modello per l’esecuzione su dispositivi mobili ha rappresentato una sfida significativa. Inizialmente, la generazione di una clip audio di 11 secondi richiedeva 240 secondi su una CPU Arm. Tuttavia, attraverso tecniche di distillazione del modello e l’utilizzo dello stack software di Arm, come i kernel int8 matmul di KleidiAI in ExecuTorch tramite XNNPack, il tempo di generazione è stato ridotto a meno di 8 secondi su CPU Armv9, ottenendo una velocità 30 volte superiore.

La maggior parte degli smartphone attuali è dotata di CPU basate su Arm, rendendo questa tecnologia accessibile a una vasta gamma di utenti. Stability AI prevede di estendere l’esecuzione dei suoi modelli, inclusi quelli per immagini, video e 3D, direttamente sui dispositivi, con l’obiettivo di trasformare il modo in cui i media visivi vengono creati su piattaforme mobili.

Di Fantasy