Groq ha recentemente lanciato il modello LLaVA v1.5 7B, disponibile su GroqCloud, che si distingue per essere più veloce del modello GPT-4o di OpenAI. Questo modello combina capacità linguistiche e visive, basandosi su CLIP di OpenAI e Llama 2 7B di Meta, per migliorare l’elaborazione delle immagini e il ragionamento visivo.
LLaVA eccelle in attività come la risposta a domande visive, la generazione di didascalie, il riconoscimento ottico dei caratteri (OCR) e i dialoghi multimodali. In test comparativi, ha dimostrato una velocità di risposta fino a quattro volte superiore rispetto a GPT-4o.
Il modello offre numerose applicazioni pratiche. Ad esempio, i rivenditori possono usarlo per monitorare l’inventario, le piattaforme social possono migliorare l’accessibilità con descrizioni di immagini, e i chatbot per il servizio clienti possono gestire interazioni basate sia su testo che su immagini. Inoltre, è utile in settori come la produzione, la finanza e l’istruzione, dove facilita l’automazione delle attività e migliora l’efficienza.
Sviluppatori e aziende possono scaricare LLaVA v1.5 7B in modalità anteprima su GroqCloud. Groq ha inoltre collaborato con Meta per rendere disponibili i modelli Llama 3.1 alla comunità. Il modello ha ricevuto elogi da Andrej Karpathy, ex ricercatore di OpenAI, che ha sottolineato la rapidità di inferenza di Groq, paragonandola a un’intelligenza artificiale generale (AGI).