Il LiT di Google può superare il CLIP di OpenAI nella classificazione delle immagini?
LiT è in grado di eseguire la classificazione delle immagini senza dover essere addestrato su ogni nuovo set di dati, pur avendo l’accuratezza di modelli specializzati.
Il quadro di apprendimento contrastante multimodale è quello in cui un modello di immagine viene addestrato consecutivamente con un modello di testo. Nel recente passato, modelli di spicco come CLIP di OpenAI e ALIGN di Google hanno lavorato su questo paradigma per eliminare la necessità di dati aggiuntivi. Questi modelli hanno utilizzato l’ approccio di apprendimento a colpo zero per risolvere nuovi compiti riformulandoli come problemi di corrispondenza immagine-testo. Per quanto flessibile sia l’ apprendimento contrastante ed efficace nel lavorare su nuove attività con dati minori, ha i suoi limiti, come la necessità di un numero elevato di set di dati immagine-testo accoppiati e prestazioni più deboli rispetto all’apprendimento di trasferimento .
Un modello pre-addestrato deve essere messo a punto ogni volta per un nuovo compito; un modello LiT non ha bisogno di essere addestrato ulteriormente.
Prima dell’introduzione dell’apprendimento multimodale , il transfer learning ha contribuito ad accelerare la classificazione delle immagini. I modelli sono stati prima preaddestrati su grandi set di dati di immagini utilizzando ImageNet come benchmark e quindi trasferiti tramite la messa a punto a una nuova attività con meno dati. Sebbene il transfer learning funzionasse perfettamente per i modelli di visione meno recenti come Big Transfer o BiT e Vision Transformer o ViT , la messa a punto ha richiesto un tempo relativamente lungo poiché ogni nuovo set di dati doveva essere messo a punto separatamente su dati specifici dell’attività. GoogleAI ha rilasciato un nuovo modello chiamato LiT, o Locked-image Text Tuning, considerando tutti questi svantaggi. Il modello sarà presentato insieme alla cartaintitolato “LiT: Trasferimento a scatto zero con regolazione del testo dell’immagine bloccata” alla conferenza CVPR di quest’anno che si terrà a giugno.
Come funziona LiT?
L’apprendimento contrastante multimodale addestra i modelli a produrre rappresentazioni simili per immagini e testi strettamente abbinati
Il modello ha creato una configurazione ingannevolmente semplice in cui è stato in grado di sfruttare le forti rappresentazioni dell’immagine dal pre-allenamento insieme al quadro di apprendimento contrastante che utilizzava l’apprendimento a scatto zero. I modelli imparano ad abbinare il testo a un codificatore di immagini pre-addestrato . Ciò differisce dal metodo precedente di addestramento multimodale , in cui un codificatore di immagini apprende solo le rappresentazioni dell’immagine mentre il codificatore di testo apprende le rappresentazioni di testo corrispondenti. In questo modo, LiT è in grado di eseguire la classificazione delle immagini senza dover essere addestrato su ogni nuovo set di dati, pur avendo l’accuratezza di modelli specializzati.
Coppie di dati immagine e testo nell’allenamento contrastivo
I modelli che non sono stati addestrati utilizzando il pre-addestramento contrastante apprendono gli incorporamenti di immagini tramite un set di dati ampio e relativamente più pulito di immagini etichettate semi-manualmente. I set di dati più comunemente usati includono ImageNet-21k e JFT-300M. Tuttavia, lo svantaggio dell’utilizzo di questi set di dati è che il modello è addestrato a un numero limitato di categorie e tenderà a riconoscerle solo. I dati multimodali non comportano questa limitazione poiché il modello è addestrato su un testo in formato libero che include un’ampia gamma di categorie. D’altra parte, set di dati accuratamente curati possono avere dati di qualità migliore rispetto ai dati di testo immagine, che di solito sono di qualità inferiore.
Il pre-allenamento contrastante viene inizializzato con un modello di immagine pre-addestrato utilizzando dati etichettati semi-manualmente relativamente più puliti. Qui, l’allineamento immagine-testo viene appreso indipendentemente dall’incorporamento dell’immagine.
Apprendimento contrastante su dati immagine-testo
L’addestramento LiT utilizza l’apprendimento contrastante per un codificatore di testo in modo che corrisponda a un codificatore di immagini preaddestrato.
Il modello apprende le rappresentazioni da un insieme di esempi “negativi” e “positivi” in modo che le rappresentazioni degli esempi positivi siano simili pur essendo diverse dalle rappresentazioni degli esempi negativi. Il modello è stato addestrato utilizzando set di dati che non erano necessariamente puliti e si sono verificati in modo più naturale online. Ciò ha consentito al modello di diventare robusto perché ha compreso appieno il concetto visivo. Una volta terminato l’addestramento, il modello è in grado di allineare testo e immagine per risolvere molti problemi.
LiT è un mix perfetto in quanto utilizza l’accuratezza della classificazione ImageNet utilizzando l’apprendimento del trasferimento: si attesta al 90,94%, rispetto ai migliori modelli zero-shot contrastanti che raggiungono il 76,4%. Inoltre, il codificatore di immagini preaddestrato deve essere “bloccato” in modo che non venga aggiornato durante l’addestramento.
Conclusione
È stato riscontrato che il modello LiT ha raggiunto un’accuratezza zero-shot dell’84,5% con la classificazione ImageNet, mostrando un netto miglioramento e dimezzando il divario di prestazioni tra messa a punto e apprendimento contrastante.
Prestazioni di LiT rispetto ai migliori modelli a contrasto e ai migliori modelli messi a punto con etichette
Le prestazioni del modello sono state confrontate con i vecchi modelli all’avanguardia come CLIP e ALIGN sulla base di sette attività VTAB. LiT ha superato CLIP e ALIGN rispettivamente dell’8,3% e dell’8,1% nelle attività di classificazione delle immagini. Allo stesso tempo, CLIP ha raggiunto una precisione del 72,3% nel benchmark ObjectNet.
Vantaggi di LiT rispetto ai vecchi modelli di visione
Essendo un modello contrastante, LiT ha mostrato livelli elevati di accuratezza con set di dati che ingannano modelli perfezionati come ObjectNet e ImageNet-C.
Considerando altri modelli con un approccio contrastante, LiT utilizza quantità di dati molto inferiori. Un vecchio modello basato sulla classificazione zero-shot deve essere addestrato su 400 milioni di coppie immagine-testo di dati privati per essere uguale a LiT, che è addestrato su 24 milioni di coppie immagine-testo liberamente disponibili.
Un codificatore di immagini bloccato è un altro elemento essenziale per un allenamento rapido e lascia un ingombro ridotto di memoria.
La rappresentazione dell’immagine può essere precalcolata per set di dati di grandi dimensioni e consente di addestrare batch ancora più grandi.
La formazione contrastiva funziona bene per molti altri tipi di formazione, come l’apprendimento auto-supervisionato e molti altri modelli disponibili gratuitamente.