IBM ha annunciato il rilascio della serie Granite 3.3, l’ultima evoluzione della sua famiglia di modelli di intelligenza artificiale open source. Questa nuova versione segna un passo significativo verso l’integrazione dell’IA nel mondo reale, introducendo capacità avanzate di riconoscimento vocale, ragionamento logico e traduzione automatica.
Granite 3.3 rappresenta il modello più sofisticato di IBM fino ad oggi. Basato su un’architettura a decoder, il modello è stato progettato per affrontare una vasta gamma di compiti, dalla generazione di codice alla comprensione del linguaggio naturale. Con una lunghezza del contesto di 128.000 token, Granite 3.3 offre una comprensione e una coerenza superiori rispetto ai suoi predecessori.
Una delle novità principali di questa versione è l’introduzione di Granite Speech 3.3 8B, un modello di riconoscimento vocale che eccelle nel riconoscimento automatico del parlato (ASR) e nella traduzione automatica del parlato (AST). Questo modello è costruito sulla base di Granite 3.3 8B Instruct e offre prestazioni superiori rispetto ad altri modelli open source e proprietari in test su dataset pubblici di riferimento. Inoltre, Granite Speech 3.3 8B è in grado di gestire file audio di lunga durata, fino a 20 minuti, senza compromettere la qualità della trascrizione.
Granite Speech 3.3 8B non si limita al riconoscimento vocale, ma offre anche capacità di traduzione automatica da e verso diverse lingue, tra cui francese, spagnolo, italiano, tedesco, portoghese, giapponese e mandarino. I test hanno dimostrato che le sue prestazioni sono paragonabili a quelle di modelli proprietari come GPT-4o di OpenAI e Gemini 2.0 Flash di Google.
Per migliorare ulteriormente le applicazioni basate su Granite, IBM ha rilasciato adattatori LoRA focalizzati sulla generazione aumentata da recupero (RAG) per il modello Granite 3.2 8B Instruct. Questi adattatori consentono di integrare facilmente informazioni esterne nei modelli, migliorando la loro capacità di rispondere a domande specifiche e contestualizzate.
Tutti i modelli della serie Granite 3.3 sono rilasciati come open source sotto la licenza Apache 2.0. Ciò significa che sviluppatori e aziende possono utilizzare, modificare e distribuire i modelli senza restrizioni, favorendo l’adozione e l’innovazione nell’ecosistema dell’intelligenza artificiale.
Guardando al futuro, IBM sta già lavorando su Granite 4.0, una nuova generazione di modelli che promette miglioramenti significativi in termini di velocità, lunghezza del contesto e capacità. Tra le aree di sviluppo vi sono il supporto per l’encoding audio multilingue, il riconoscimento delle emozioni nel parlato e l’integrazione più profonda delle funzionalità audio nei processi di addestramento.