LAION rilascia modelli OpenCLIP su larga scala per promuovere la classificazione delle immagini
Il nuovo modello H/14 mira a raggiungere numeri di alto livello con un’ampia applicazione oltre la generazione di immagini nella classificazione di fascia alta e nella creazione di set di dati.
 
In un post sul blog la scorsa settimana, LAION (Large-scale Artificial Intelligence Open Network) ha addestrato tre modelli CLIP su larga scala , ViT-L/14, ViT-H/14 e ViT-g/14, con OpenCLIP . Si ritiene che la creazione di questo modello abbia stabilito un nuovo punto di riferimento per guidare la classificazione e la generazione delle immagini in avanti. 

I modelli CLIP sono in genere addestrati in modo autocontrollato su numerose coppie (immagine, testo). Il blog afferma che con LAION, il team ha prodotto il “set di dati LAION-5B”, che si ritiene contenga 5,8 miliardi di coppie di immagini e testo strettamente correlate. 

 
CLIP (Contrastive Language – Image Pre-training) è una rete neurale che apprende in modo efficiente concetti visivi dalla supervisione del linguaggio naturale. Può essere applicato a qualsiasi benchmark nella classificazione visiva fornendo i nomi delle categorie da riconoscere, in modo simile alle capacità “zero-shot” di GPT-2 e GPT-3.

Il modello CLIP ViT B/32 è stato inizialmente rilasciato da OpenAI per filtrare il set di dati dalla scansione comune. Il team ritiene che il miglior modello CLIP open source del set di dati LAION-5B completi la replica open source del documento CLIP , pubblicato da OpenAI nel 2021.

 
Il nuovo modello H/14 mira a raggiungere numeri di alto livello con un’ampia applicazione oltre la generazione di immagini nella classificazione di fascia alta e nella creazione di set di dati. Il modello H/14 raggiunge una precisione del 78,0% zero-shot top-1 su ImageNet e il 73,4% sul recupero di immagini zero-shot su Recall@5 su MS COCO , considerato il miglior modello CLIP open source a settembre 2022.

I modelli dovrebbero essere utilizzati per molte applicazioni come la guida e il condizionamento delle clip e pretendono di ottenere risultati migliori su modelli come la diffusione stabile . Può essere ulteriormente utilizzato per modificare il codificatore di testo in modo che funzioni nell’impostazione multilingue o espandersi ad altre modalità ed estrarre la conoscenza da clip più piccole in una più grande, per aiutare a avviare i processi di apprendimento. 

Di ihal