Carl Vondrick, ex scienziato ricercatore di Google e attualmente professore assistente alla Columbia University, insieme a due ricercatori di dottorato di visione artificiale della stessa università, Dídac Surís e Sachit Menon, ha sviluppato il framework ViperGPT. Questo framework consente la composizione programmatica di visione, linguaggio, funzioni matematiche e logiche per query visive complesse.
ViperGPT è in grado di collegare i progressi individuali nella visione e nei linguaggi, oltre a consentire loro di mostrare capacità al di là di ciò che ogni singolo modello può fare da solo. In pratica, inserendo la query in qualsiasi formato visivo, inclusi immagini e video, è possibile ottenere il risultato desiderato in formato testo o immagine, a seconda della tipologia di query.
Il framework utilizza una combinazione di ragionamento passo dopo passo del Codex insieme a conoscenze esterne interrogate dal modello di testo di GPT-3. Ciò si traduce in prestazioni impressionanti in questa impostazione. ViperGPT utilizza l’API Codex sul modello GPT-3 per la funzione di query LLM (text-davinci-003) e l’API8 OpenAI Python ufficiale.
Per creare i programmi, Codex viene fornito con API che espongono capacità visive come “find, compute_depth”. Con una precedente formazione sul codice, il modello è in grado di ragionare su come utilizzare queste funzioni e implementare la logica pertinente. I risultati del modello hanno fornito notevoli “prestazioni zero-shot”, senza formazione su immagini specifiche per attività.
Il team ha anche annunciato lo sviluppo di una libreria Python per promuovere un rapido sviluppo per la sintesi di programmi per attività visive che alla fine diventeranno open source.
ViperGPT è stato valutato su quattro attività per comprendere le diverse capacità del modello in vari contesti senza ulteriore formazione. I compiti includono la messa a terra visiva, la risposta alle domande sull’immagine compositiva, la risposta alle domande sull’immagine dipendente dalla conoscenza esterna e il video ragionamento causale e temporale.
Rispetto a GPT-4, la piattaforma multimodale più recente, ViperGPT consente di produrre output in diversi formati a seconda della query, come testo, selezione a scelta multipla o regioni di immagini. Inoltre, i parametri utilizzati per l’addestramento dei modelli non sono disponibili e rimane da vedere se ViperGPT può essere utilizzato in tandem con altri modelli di risoluzione dei problemi, come lo stesso GPT-4, per fornire un framework integrato che utilizza modelli di riconoscimento e generativi.
In sintesi, ViperGPT è un framework innovativo che consente la composizione programmatica di visione, linguaggio, funzioni matematiche e logiche per query visive complesse. Utilizzando una combinazione di ragionamento del Codex e conoscenze esterne, il modello è in grado di produrre risultati impressionanti senza la necessità di una formazione specifica su immagini.
Il team di ricerca ha valutato il modello su quattro attività diverse, dimostrando le sue capacità in vari contesti senza ulteriore formazione. Inoltre, il team ha annunciato lo sviluppo di una libreria Python per promuovere lo sviluppo rapido di programmi per attività visive.
Rispetto a GPT-4, ViperGPT consente di produrre output in diversi formati a seconda della tipologia di query, come testo, selezione a scelta multipla o regioni di immagini. Tuttavia, i parametri utilizzati per l’addestramento dei modelli non sono disponibili, e rimane da vedere se ViperGPT può essere utilizzato insieme ad altri modelli per fornire un framework integrato che utilizza modelli di riconoscimento e generativi.
In definitiva, ViperGPT rappresenta un passo avanti nella ricerca sui modelli di visione e linguaggio, e potrebbe avere applicazioni interessanti in una vasta gamma di settori, tra cui la robotica, l’automazione industriale e la produzione di contenuti multimediali.