Apple ha recentemente introdotto i modelli di immagine autoregressivi (AIM), una serie di modelli di visione artificiali pre-addestrati seguendo un approccio autoregressivo. Questi modelli rappresentano un passo avanti nella formazione di modelli di visione su larga scala, ispirandosi ai grandi modelli linguistici (LLM) e dimostrando proprietà di scalabilità analoghe.
I ricercatori di Apple hanno sviluppato un metodo scalabile per pre-addestrare questi modelli di visione in modo non supervisionato. Hanno impiegato un obiettivo autoregressivo generativo nel pre-addestramento e suggerito miglioramenti tecnici per l’applicazione in ambiti specifici.
Secondo i ricercatori, le performance delle caratteristiche visive dei modelli migliorano sia con l’aumento della capacità del modello sia con la quantità di dati di addestramento. Hanno anche osservato che la qualità dell’obiettivo di pre-addestramento è direttamente correlata alle prestazioni del modello in compiti successivi.
Il team Apple ha messo in luce le applicazioni pratiche di queste scoperte pre-addestrando un AIM con 7 miliardi di parametri su 2 miliardi di immagini. Questo modello ha raggiunto un’accuratezza dell’84,0% su ImageNet-1k con un tronco di rete fissa.
È interessante notare che, anche a questa scala, non hanno riscontrato limiti di saturazione delle prestazioni. La pre-addestramento degli AIM è paragonabile a quello dei LLM e non necessita di strategie specifiche per le immagini per garantire una formazione stabile su larga scala.
Apple sostiene che gli AIM possiedono caratteristiche vantaggiose, come la capacità di scalare fino a 7 miliardi di parametri usando un’architettura transformer standard, senza la necessità di tecniche per la stabilità o aggiustamenti complessi degli iperparametri.
Inoltre, le prestazioni degli AIM nei compiti di pre-addestramento mostrano una forte correlazione con quelle in compiti successivi, superando metodi all’avanguardia come i MAE e colmando il divario tra approcci di pre-addestramento generativi e di inclusione congiunta.
Infine, i ricercatori hanno osservato che non c’è segno di saturazione delle prestazioni man mano che si aumenta la dimensione dei modelli, suggerendo la possibilità di ulteriori miglioramenti con modelli più grandi e programmi di addestramento più estesi.