Salesforce ha appena lanciato una nuova serie di modelli di intelligenza artificiale multimodali open source chiamati xGen-MM (o BLIP-3). Questi modelli rappresentano un passo avanti significativo nella capacità dell’IA di comprendere e generare contenuti che combinano testo, immagini e altri tipi di dati.

I modelli xGen-MM sono progettati per gestire dati “interlacciati”, cioè dati che combinano testo e immagini in modo naturale. Questo consente loro di svolgere compiti complessi, come rispondere a domande basate su più immagini, una funzionalità utile in applicazioni come la diagnosi medica e i veicoli autonomi.

Salesforce ha pubblicato un articolo su arXiv, dove i ricercatori descrivono il framework xGen-MM, che include modelli pre-addestrati, set di dati e codice per la messa a punto. Il modello più grande ha 4 miliardi di parametri e offre prestazioni competitive rispetto ad altri modelli open source di dimensioni simili.

Salesforce ha scelto di rendere open source questi modelli, set di dati e codice, contrariamente ad altre aziende che tendono a mantenere i loro modelli proprietari. Questo approccio potrebbe democratizzare l’accesso alla tecnologia di IA multimodale e stimolare ulteriori innovazioni nel settore.

Il rilascio include varianti del modello progettate per scopi specifici:

  • Modello Base: pre-addestrato per compiti generali.
  • Modello “Instruction-Tuned”: ottimizzato per seguire istruzioni.
  • Modello “Safety-Tuned”: progettato per ridurre gli output dannosi.

Il rilascio open source solleva questioni sui rischi e sugli impatti sociali dell’IA avanzata. Anche se Salesforce ha incluso misure di sicurezza per mitigare i rischi, le implicazioni più ampie dell’accesso a questi modelli rimangono un argomento di discussione nella comunità tecnologica.

I modelli xGen-MM sono stati addestrati su enormi set di dati, tra cui il set di dati “MINT-1T” con trilioni di token di testo e immagini. Sono stati creati anche nuovi set di dati per migliorare il riconoscimento ottico dei caratteri e l’interazione visiva.

Di Fantasy