La ricerca di Google identifica un collo di bottiglia negli approcci iperscala all’IA
 

Un nuovo documento di Google Research indica che l’attuale tendenza verso la cura di set di dati a volume molto elevato potrebbe essere controproducente per lo sviluppo di sistemi di intelligenza artificiale efficaci. In effetti, la ricerca indica che prodotti di apprendimento automatico migliori possono emergere dall’essere addestrati su set di dati meno accurati (vale a dire tecnicamente “peggiori”).

Se i principi ottenuti dai ricercatori sono validi, significa che set di dati “iperscala” come il LAION-400M recentemente rilasciato (che contiene 400 milioni di coppie testo/immagine) e i dati dietro il motore del linguaggio neurale GPT-3 (contenente 175 miliardi di parametri), sono potenzialmente soggetti a una sorta di “limite termico” nelle architetture e nelle metodologie di apprendimento automatico tradizionali e popolari, per cui l’enorme volume di dati “satura” le applicazioni a valle e impedisce loro di generalizzare in modo utile.

I ricercatori propongono anche metodi alternativi per ripensare l’architettura del set di dati iperscala, al fine di correggere lo squilibrio.

Il documento afferma:

“Approfondendo per comprendere le ragioni che danno origine a questi fenomeni, dimostriamo che il comportamento di saturazione che osserviamo è strettamente correlato al modo in cui le rappresentazioni evolvono attraverso gli strati dei modelli. Mostriamo uno scenario ancora più estremo in cui le prestazioni a monte ea valle sono in contrasto tra loro. Cioè, per avere prestazioni migliori a valle, dobbiamo ridurre la precisione a monte.’

Lo studio è intitolato Exploring the Limits of Large Scale Pre-training e proviene da quattro autori di Google Research.

Indagare sulla ‘saturazione’
Gli autori sfidano i presupposti prevalenti delle relazioni tra apprendimento automatico e dati nell’era dei dati iperscala: che ridimensionare i modelli e la dimensione dei dati migliora notevolmente le prestazioni (una convinzione che è stata cementata nell’hype su GPT-3 sin dal suo lancio); e che queste prestazioni migliorate “passano attraverso” alle attività a valle in modo lineare (cioè desiderabile), in modo che gli algoritmi sul dispositivo che alla fine vengono lanciati sul mercato, derivati ​​da set di dati altrimenti ingovernabili e modelli addestrati non distillati, beneficino completamente di le intuizioni delle architetture upstream a grandezza naturale.

“Questi punti di vista”, osservano i ricercatori, “suggeriscono che spendere risorse di calcolo e di ricerca per migliorare le prestazioni di un corpus enorme ripagherebbe perché ci consentirebbe di risolvere molti compiti a valle quasi gratuitamente”.

Ma il documento sostiene che la mancanza di risorse informatiche e i successivi metodi “economici” di valutazione del modello stanno contribuendo a una falsa impressione delle dinamiche di relazione tra volume di dati e utili sistemi di intelligenza artificiale. Gli autori identificano questa abitudine come “un grave difetto”, poiché la comunità di ricerca in genere presume che i risultati locali (positivi) si tradurranno in utili implementazioni successive:

‘[A causa] delle limitazioni di calcolo, le prestazioni per le diverse scelte dei valori degli iperparametri non vengono riportate. I grafici di ridimensionamento sembrano più favorevoli se l’iperparametro scelto per ciascuna scala è fisso o determinato da una semplice funzione di ridimensionamento.’

I ricercatori affermano inoltre che molti studi di ridimensionamento sono misurati non rispetto a scale assolute, ma come miglioramenti incrementali rispetto allo stato dell’arte (SotA), osservando che “non c’è motivo, a priori, per il ridimensionamento di mantenere al di fuori di la gamma studiata’.

Pre-allenamento
Il documento affronta la pratica del “pre-addestramento”, una misura progettata per risparmiare risorse di calcolo e ridurre i tempi spesso orrendi necessari per addestrare un modello su dati su larga scala da zero. Le istantanee di pre-formazione gestiscono gli “ABC” del modo in cui i dati all’interno di un dominio verranno generalizzati durante la formazione e sono comunemente utilizzate in una varietà di settori e specialità di apprendimento automatico, dall’elaborazione del linguaggio naturale (NLP) fino ai deepfake .

Precedenti ricerche accademiche hanno scoperto che il pre-addestramento può migliorare notevolmente la robustezza e l’accuratezza del modello, ma il nuovo documento suggerisce che la complessità delle funzionalità, anche in modelli di pre-addestramento relativamente brevi, potrebbe essere di maggiore beneficio se spostata lungo la linea per processi successivi in ​​cantiere.

Tuttavia, questo non può accadere se i ricercatori continuano a dipendere da modelli pre-addestrati che utilizzano le migliori pratiche correnti nell’applicazione dei tassi di apprendimento, che, conclude la ricerca, possono influenzare notevolmente l’accuratezza finale delle applicazioni finali del lavoro. A questo proposito, gli autori osservano che “non si può sperare di trovare un punto di controllo pre-addestrato che funzioni bene su tutte le possibili attività a valle”.

Lo studio
Per stabilire l’effetto di saturazione, gli autori hanno condotto 4800 esperimenti su Vision Transformers, ResNet e MLP-Mixer, ciascuno con un numero variabile di parametri, da 10 milioni a 10 miliardi, tutti addestrati sui dataset a più alto volume disponibili nei rispettivi settori, tra cui ImageNet21K e il JFT-300M di Google .

I risultati, afferma il documento, mostrano che la diversità dei dati dovrebbe essere considerata come un asse aggiuntivo quando si tenta di “scalare” i dati, i parametri del modello e il tempo di calcolo. Allo stato attuale, la forte concentrazione di risorse di formazione (e attenzione dei ricercatori) sulla sezione a monte di una pipeline di intelligenza artificiale sta effettivamente facendo esplodere le applicazioni a valle con una valanga di parametri fino a un punto di “saturazione”, riducendo la capacità degli algoritmi implementati di navigare attraverso le caratteristiche ed eseguire inferenze o trasformazioni di effetti.

Il documento conclude:

‘Attraverso un ampio studio, stabiliamo che, quando miglioriamo le prestazioni dell’attività a monte, scalando verso l’alto o tramite scelte di iperparametri e architettura, le prestazioni delle attività a valle mostrano un comportamento saturante. Inoltre, forniamo una forte evidenza empirica che, contrariamente alla narrativa comune, il ridimensionamento non porta a una soluzione valida per tutti.’

Di ihal