La Sapienza Università di Roma ha presentato ChatMinerva, un nuovo assistente di intelligenza artificiale multimodale sviluppato a partire dalla famiglia di modelli linguistici Minerva, il progetto di ricerca che negli ultimi anni ha portato alla realizzazione dei primi Large Language Model addestrati da zero con un forte focus sulla lingua italiana. Il sistema è stato sviluppato dal gruppo Sapienza NLP guidato da Roberto Navigli in collaborazione con Babelscape, spin-off dell’ateneo, e rappresenta un’evoluzione delle capacità già introdotte con Minerva 7B.
A differenza di un tradizionale chatbot testuale, ChatMinerva è stato progettato come assistente multimodale in grado di elaborare simultaneamente diverse tipologie di contenuti. Gli utenti possono caricare documenti, immagini, fotografie, pagine scannerizzate, report tecnici e articoli scientifici, chiedendo al sistema di interpretarli, riassumerli, estrarre informazioni o rispondere a domande specifiche sul loro contenuto. La piattaforma integra inoltre funzionalità OCR per l’analisi dei documenti acquisiti tramite scansione e supporta interazioni vocali oltre alle tradizionali conversazioni testuali.
Uno degli aspetti più rilevanti del progetto riguarda l’attenzione verso la sovranità tecnologica e linguistica. La famiglia Minerva è infatti stata addestrata partendo da dataset aperti in italiano e inglese e sfruttando l’infrastruttura di calcolo del supercomputer Leonardo del CINECA. Questo approccio ha consentito di sviluppare modelli ottimizzati per la comprensione della lingua italiana senza dipendere da sistemi progettati principalmente per l’inglese.
ChatMinerva integra inoltre un sistema di accesso alle informazioni presenti sul Web attraverso meccanismi di retrieval che permettono di utilizzare dati aggiornati durante le interazioni. La piattaforma dispone di una finestra contestuale estesa fino a 32.000 token, caratteristica che consente l’analisi di documenti complessi e conversazioni di lunga durata. È presente anche un sistema dedicato alla validazione degli input e delle risposte, sviluppato per ridurre la generazione di contenuti indesiderati, non affidabili o potenzialmente sensibili.
Il progetto rappresenta anche una tappa intermedia nella roadmap del gruppo di ricerca. Secondo quanto annunciato dai responsabili dell’iniziativa, è già in fase di addestramento una nuova generazione del modello Minerva con circa 20 miliardi di parametri, progettata fin dall’origine come architettura multimodale e multilingue. L’addestramento viene eseguito sulle infrastrutture HPC del CINECA e punta ad ampliare ulteriormente le capacità di elaborazione di testi, immagini e documenti all’interno di un unico sistema di intelligenza artificiale sviluppato in Italia.
