La startup di Elon Musk, xAI, ha lanciato Grok-1.5V, un nuovo modello AI che unisce testo e immagini. Questo modello è in grado di elaborare una vasta gamma di informazioni visive, come documenti, grafici e fotografie, oltre al testo.
Grok-1.5V sarà disponibile presto per i primi tester e gli utenti già esistenti di Grok.
La caratteristica più interessante di Grok-1.5V è la sua capacità di comprendere concetti spaziali del mondo reale, un vantaggio evidenziato nei test di comprensione pratica come il benchmark RealWorldQA.
In confronto con altri modelli leader come GPT-4V e Claude 3 Sonnet, Grok-1.5V dimostra migliori prestazioni su vari benchmark, evidenziando la sua versatilità e potenza.
Un’altra caratteristica sorprendente di Grok-1.5V è la sua abilità di tradurre informazioni visive complesse in codice eseguibile, come convertire un diagramma di flusso in codice Python.
Guardando al futuro, gli sviluppatori di Grok-1.5V prevedono miglioramenti significativi nelle capacità di immagini, audio e video, segnalando un progresso verso la creazione di un’Intelligenza Generale Artificiale (AGI) che possa comprendere e interagire con il mondo in modo completo.
Grok-1.5V segue il recente lancio di Grok-1.5, che ha migliorato le capacità di ragionamento e allargato il contesto di 128.000 token. Grok-1.5 ha mostrato miglioramenti significativi, soprattutto nelle attività di codifica e matematica, superando Mistral Large su vari benchmark.