La startup AI Reka, fondata da ricercatori provenienti da DeepMind, Google, Baidu e Meta, ha annunciato un nuovo assistente AI chiamato Yasa-1, che rappresenta una significativa evoluzione nel campo dell’intelligenza artificiale multimodale. Yasa-1 va oltre il testo tradizionale per comprendere immagini, brevi video e frammenti audio, aprendo nuove possibilità per una vasta gamma di applicazioni.
In fase di anteprima privata, Yasa-1 offre la flessibilità di essere personalizzato utilizzando dati privati in qualsiasi modalità, consentendo alle aziende di creare esperienze su misura per una varietà di casi d’uso. Questo assistente supporta ben 20 lingue diverse ed è in grado di fornire risposte basate su contesto proveniente da Internet, elaborare documenti con contesto lungo e persino eseguire codice.
Yasa-1 entra in diretta concorrenza con ChatGPT di OpenAI, che ha recentemente ottenuto un importante aggiornamento multimodale con il supporto per istruzioni visive e audio.
Il capo scienziato e co-fondatore di Reka, Yi Tay, ha espresso orgoglio per i risultati ottenuti dal suo team in meno di sei mesi, passando dall’idea alla realizzazione di un prodotto completo. Questo processo ha coinvolto molteplici fasi, dalla preformazione dei modelli di base all’allineamento per la multimodalità, all’ottimizzazione delle infrastrutture di formazione e servizio.
Tuttavia, Reka sottolinea che Yasa-1 è ancora una tecnologia nuova e presenta alcune limitazioni che verranno affrontate nei prossimi mesi.
Yasa-1 è disponibile tramite API e come contenitore docker per la distribuzione on-premise o VPC. Questo assistente si basa su un singolo modello unificato addestrato da Reka, il quale è in grado di comprendere non solo testo, ma anche immagini, audio e brevi video clip. Questa capacità consente agli utenti di combinare istruzioni basate su testo con contenuti multimediali per ottenere risposte più precise ed esaustive.
Ad esempio, Yasa-1 può essere utilizzato per generare post sui social media promuovendo un prodotto basandosi sull’immagine di quel prodotto, oppure può essere utilizzato per rilevare suoni specifici e identificarne la fonte. L’assistente può anche descrivere cosa accade in un video, incluso il contenuto delle discussioni, e fare previsioni sul suo sviluppo futuro. Tuttavia, Reka ammette che, in questa fase, la tecnologia potrebbe avere difficoltà a discernere dettagli complessi in media multimodali più lunghi di un minuto.
Oltre alla multimodalità, Yasa-1 offre funzionalità aggiuntive come il supporto per 20 lingue diverse, l’elaborazione di documenti con contesto lungo e la capacità di eseguire attivamente codice (esclusivo per le distribuzioni in sede) per eseguire operazioni aritmetiche, analizzare fogli di calcolo o creare visualizzazioni per dati specifici.
Reka prevede di consentire a più aziende di accedere a Yasa-1 nelle prossime settimane e sta lavorando per migliorare ulteriormente le capacità dell’assistente, superando le attuali limitazioni. L’azienda ha una visione a lungo termine di utilizzare l’intelligenza artificiale per affrontare le sfide più importanti dell’umanità, e vede Yasa-1 come un passo in questa direzione.
Nonostante la concorrenza proveniente da altre grandi aziende nel campo dell’intelligenza artificiale, Reka è determinata a fare la differenza con la sua innovativa tecnologia multimodale. La startup è ancora giovane nella competizione, ma con il suo talentuoso team e il focus sulla personalizzazione delle esperienze AI, potrebbe rivelarsi un concorrente formidabile.