LAION rilascia modelli OpenCLIP

LAION rilascia modelli OpenCLIP su larga scala per promuovere la classificazione delle immagini
Il nuovo modello H/14 mira a raggiungere numeri di alto livello con un’ampia applicazione oltre la generazione di immagini nella classificazione di fascia alta e nella creazione di set di dati.

In un post sul blog la scorsa settimana, LAION (Large-scale Artificial Intelligence Open Network) ha addestrato tre modelli CLIP su larga scala , ViT-L/14, ViT-H/14 e ViT-g/14, con OpenCLIP . Si ritiene che la creazione di questo modello abbia stabilito un nuovo punto di riferimento per guidare la classificazione e la generazione delle immagini in avanti.

I modelli CLIP sono in genere addestrati in modo autocontrollato su numerose coppie (immagine, testo). Il blog afferma che con LAION, il team ha prodotto il “set di dati LAION-5B”, che si ritiene contenga 5,8 miliardi di coppie di immagini e testo strettamente correlate.

CLIP (Contrastive Language – Image Pre-training) è una rete neurale che apprende in modo efficiente concetti visivi dalla supervisione del linguaggio naturale. Può essere applicato a qualsiasi benchmark nella classificazione visiva fornendo i nomi delle categorie da riconoscere, in modo simile alle capacità “zero-shot” di GPT-2 e GPT-3.

Il modello CLIP ViT B/32 è stato inizialmente rilasciato da OpenAI per filtrare il set di dati dalla scansione comune. Il team ritiene che il miglior modello CLIP open source del set di dati LAION-5B completi la replica open source del documento CLIP , pubblicato da OpenAI nel 2021.

Il nuovo modello H/14 mira a raggiungere numeri di alto livello con un’ampia applicazione oltre la generazione di immagini nella classificazione di fascia alta e nella creazione di set di dati. Il modello H/14 raggiunge una precisione del 78,0% zero-shot top-1 su ImageNet e il 73,4% sul recupero di immagini zero-shot su Recall@5 su MS COCO , considerato il miglior modello CLIP open source a settembre 2022.

I modelli dovrebbero essere utilizzati per molte applicazioni come la guida e il condizionamento delle clip e pretendono di ottenere risultati migliori su modelli come la diffusione stabile . Può essere ulteriormente utilizzato per modificare il codificatore di testo in modo che funzioni nell’impostazione multilingue o espandersi ad altre modalità ed estrarre la conoscenza da clip più piccole in una più grande, per aiutare a avviare i processi di apprendimento.

LAION rilascia modelli OpenCLIP

Diihal

Di ihal

Articoli correlati

L’AI di Ventusky per previsioni di grandine a portata di mano

Vibe Coding: nonno di 91 anni crea un’app per la Chiesa con Claude e Replit

Anthropic Claude trasforma ogni utente in uno sviluppatore di app no-code

You missed

DeepBrain AI realizza un chiosco innovativo per la consulenza psicologica ai giovani tramite intelligenza artificiale

La Cina e la crisi delle Zombie Fab: analisi dell’industria dei semiconduttori

L’impatto dell’AI sulla produttività degli sviluppatori esperti: uno studio inaspettato

Testaify lancia piattaforma di testing software autonomo con AI agentica