Cohere, startup canadese fondata nel 2019 e focalizzata sull’AI per l’impresa, ha annunciato il lancio di Aya Vision, il suo primo modello multimodale open-weight. Questo modello integra competenze linguistiche e visive, supportando input in 23 lingue diverse, parlate da circa metà della popolazione mondiale, secondo quanto riportato da Cohere.
Aya Vision è progettato per migliorare la capacità dell’AI di interpretare immagini, generare testi e tradurre contenuti visivi in linguaggio naturale, rendendo l’intelligenza artificiale multilingue più accessibile ed efficace. Questo è particolarmente vantaggioso per le imprese e le organizzazioni che operano in mercati globali con diverse preferenze linguistiche.
venturebeat.com
Il modello è disponibile in versioni da 8 miliardi e 32 miliardi di parametri, dove un numero maggiore di parametri generalmente indica una maggiore potenza e prestazioni del modello.
venturebeat.com
Sebbene i principali modelli di AI concorrenti possano comprendere testi in più lingue, estendere questa capacità a compiti basati sulla visione rappresenta una sfida. Aya Vision supera questa difficoltà permettendo agli utenti di generare didascalie per immagini, rispondere a domande visive, tradurre immagini e svolgere compiti linguistici basati su testo in una vasta gamma di lingue, tra cui:
Inglese, Francese, Tedesco, Spagnolo, Italiano, Portoghese, Giapponese, Coreano, Cinese, Arabo, Greco, Persiano, Polacco, Indonesiano, Ceco, Ebraico, Hindi, Olandese, Rumeno, Russo, Turco, Ucraino e Vietnamita
Questa vasta gamma di supporto linguistico rende Aya Vision uno strumento potente per applicazioni globali.
Uno degli aspetti distintivi di Aya Vision è la sua efficienza e le prestazioni in relazione alle dimensioni del modello. Nonostante sia significativamente più piccolo rispetto ad alcuni modelli multimodali leader, Aya Vision ha superato alternative molto più grandi in diversi benchmark chiave.
Cohere for AI attribuisce i guadagni prestazionali di Aya Vision a diverse innovazioni chiave:
- Annotazioni Sintetiche: Il modello sfrutta la generazione di dati sintetici per migliorare l’addestramento su compiti multimodali.
- Scalabilità dei Dati Multilingue: Attraverso la traduzione e la riformulazione dei dati in diverse lingue, il modello acquisisce una comprensione più ampia dei contesti multilingue.
- Fusione di Modelli Multimodali: Tecniche avanzate combinano le intuizioni sia dei modelli di visione che di linguaggio, migliorando le prestazioni complessive.
Questi progressi consentono ad Aya Vision di elaborare immagini e testi con maggiore accuratezza, mantenendo al contempo solide capacità multilingue.
Nonostante Aya Vision sia apparentemente rivolto alle imprese, le restrittive condizioni di licenza non commerciali possono limitarne l’utilizzo in ambito aziendale. Tuttavia, le imprese possono utilizzarlo per ricerca e sviluppo interni, valutando le prestazioni dell’AI multilingue ed esplorando applicazioni multimodali in ambienti non commerciali. I CTO e i team di AI troveranno Aya Vision prezioso come modello open-weight altamente efficiente che supera alternative molto più grandi, richiedendo al contempo meno risorse computazionali. Questo lo rende uno strumento utile per confronti con modelli proprietari, esplorando potenziali soluzioni AI e testando interazioni multimodali multilingue prima di impegnarsi in una strategia di distribuzione commerciale.
Aya Vision fa parte di Aya, un’iniziativa più ampia di Cohere focalizzata sulla promozione dell’AI multilingue. Dalla sua nascita nel febbraio 2024, l’iniziativa Aya ha coinvolto una comunità di ricerca globale composta da oltre 3.000 ricercatori indipendenti in 119 Paesi.