Florence-2 è disponibile con licenza MIT permissiva e può gestire una vasta gamma di attività visive e di linguaggio visivo utilizzando una rappresentazione unificata basata su prompt. Offre due dimensioni: 232M e 771M parametri, eccellendo già in compiti come didascalie, rilevamento di oggetti, grounding visivo e segmentazione. Le sue prestazioni sono paragonabili o superiori a molti modelli di visione di grandi dimensioni.
Sebbene le sue prestazioni reali debbano ancora essere testate, ci si aspetta che Florence-2 fornisca alle aziende un approccio unificato per gestire diversi tipi di applicazioni di visione, riducendo la necessità di modelli separati per ogni compito specifico e ottimizzando gli investimenti.
Microsoft ha affrontato due sfide principali nel suo sviluppo: la scarsità di set di dati visivi ampiamente annotati e la mancanza di un framework di pre-addestramento unificato. Utilizzando modelli specializzati, hanno creato il set di dati FLD-5B con 5,4 miliardi di annotazioni per 126 milioni di immagini. Con questo, hanno addestrato Florence-2, che utilizza un’architettura sequenza-sequenza per integrare un codificatore di immagini e un codificatore-decodificatore multimodale, consentendo al modello di gestire diverse attività di visione senza modifiche architettoniche specifiche per compito.
Florence-2 è già operativo con ottimi risultati nei test di sottotitoli zero-shot e ha superato modelli più grandi in vari compiti visivi. Le versioni 232M e 771M sono ora disponibili su Hugging Face, permettendo agli sviluppatori di utilizzare il modello liberamente per scopi commerciali e privati.
Questo passo potrebbe ridurre significativamente i costi di elaborazione e semplificare lo sviluppo applicativo, integrando diverse funzionalità di visione in un’unica soluzione.