Nel panorama in rapida evoluzione dell’intelligenza artificiale, l’accesso a dati di addestramento di alta qualità rappresenta una sfida cruciale per le aziende. Mentre fonti pubbliche di dati sono sempre più limitate, giganti come OpenAI e Google stanno consolidando partnership esclusive per ampliare i propri dataset proprietari, restringendo ulteriormente l’accesso per altri attori del settore.

In risposta a questa crescente esigenza, Salesforce ha introdotto ProVision, un innovativo framework progettato per generare programmaticamente dati visivi di istruzione. Questo approccio consente la sintesi sistematica di dataset, facilitando l’addestramento di modelli linguistici multimodali (MLM) ad alte prestazioni, capaci di rispondere a domande relative a immagini.

ProVision affronta direttamente il problema della scarsità di dati visivi di qualità, riducendo la dipendenza da dataset limitati o etichettati in modo incoerente. La capacità di generare dati di istruzione visiva in modo programmatico offre un controllo maggiore sulla qualità e sulla coerenza dei dataset, permettendo iterazioni più rapide e riducendo i costi associati all’acquisizione di dati specifici per determinati domini.

Questo sviluppo si inserisce in un contesto di ricerca attiva nella generazione di dati sintetici, complementando iniziative come il recente lancio di Cosmos da parte di Nvidia, una suite di modelli fondamentali progettati per generare video basati su input testuali, immagini e video, destinati all’addestramento di IA fisiche.

Utilizzando il framework ProVision, Salesforce ha rilasciato ProVision-10M, un dataset contenente 10 milioni di scene generate programmaticamente. Questo vasto insieme di dati è stato impiegato per migliorare le prestazioni e l’accuratezza di vari modelli di IA multimodale, dimostrando l’efficacia dell’approccio di Salesforce nel superare le limitazioni dei dati tradizionali.

Per i professionisti del settore, ProVision rappresenta un progresso significativo. La possibilità di generare dati di istruzione visiva di alta qualità in modo programmatico allevia la dipendenza da dataset limitati o etichettati in modo incoerente, una sfida comune nell’addestramento di sistemi multimodali. Inoltre, la capacità di sintetizzare dataset in modo sistematico garantisce un maggiore controllo, scalabilità e coerenza, consentendo cicli di iterazione più rapidi e riducendo i costi associati all’acquisizione di dati specifici per determinati domini.

Di Fantasy