Immagine AI

L’arena globale dell’Intelligenza Artificiale è stata scossa da un annuncio di Baidu, il gigante tecnologico cinese, che ha rilasciato in modo open-source un nuovo modello di IA multimodale, ERNIE, con la clamorosa rivendicazione di superare le prestazioni dei competitor più blasonati, inclusi i presunti successori di OpenAI come GPT-5 e il modello Gemini di Google. Questo evento non rappresenta solo un passo avanti tecnologico per Baidu, ma segna una svolta strategica e un’intensificazione della competizione, specialmente nel settore dell’IA accessibile e a basso costo.

Il modello in questione, denominato ERNIE-4.5-VL-28B-A3B-Thinking, è stato concepito con una caratteristica fondamentale: la multimodalità nativa. A differenza dei modelli originariamente focalizzati sul solo testo, e successivamente adattati per comprendere le immagini, ERNIE è stato sin dall’inizio allenato per integrare e interpretare testo, immagini, video e persino dati non strutturati e complessi. Questa capacità lo rende un assistente digitale di inestimabile valore per l’uso aziendale, dove gran parte delle informazioni cruciali non risiede in semplici documenti di testo, ma è “bloccata” all’interno di dashboard logistiche, diagrammi ingegneristici, feed video da stabilimenti produttivi e persino scansioni mediche dettagliate. L’abilità di analizzare dati visivi densi e non testuali, come l’interpretazione di un diagramma di un circuito a ponte o la decifrazione di un grafico logistico per ottimizzare gli orari di punta, dimostra un livello di ragionamento che va oltre la semplice descrizione di un’immagine.

Ciò che rende questo rilascio particolarmente interessante per gli architetti di sistema e le imprese è l’architettura su cui si basa. Nonostante le sue pretese di prestazioni di punta, ERNIE è descritto come un modello “leggero”, che attiva solo pochi miliardi di parametri—tre miliardi nella versione più efficiente, ad esempio—durante l’operazione di inferenza. Questo approccio mirato affronta uno dei maggiori ostacoli alla diffusione su larga scala dell’IA in ambito aziendale: gli elevati costi di inferenza. Baidu sta chiaramente scommettendo sull’efficienza come via maestra per l’adozione, posizionando il suo sistema come la fondazione ideale per lo sviluppo di futuri “agenti multimodali” capaci non solo di percepire, ma anche di ragionare e agire autonomamente in ambienti complessi.

A sostegno delle sue audaci affermazioni, Baidu ha presentato una serie di benchmark che collocano ERNIE al di sopra dei suoi diretti competitor occidentali. Su test chiave come MathVista, che valuta la capacità di ragionamento matematico in contesti visivi, e ChartQA, che misura la comprensione delle informazioni estratte dai grafici, ERNIE ha registrato punteggi superiori rispetto a GPT-5-High e Gemini 2.5 Pro. Questi risultati indicano un notevole successo nell’affrontare sfide che richiedono una profonda integrazione tra la comprensione visiva e il ragionamento logico. La scelta di rendere disponibile in modalità open-source o open-weight un modello con prestazioni di tale livello segna il virtuale crollo del divario tra i sistemi proprietari di frontiera e quelli accessibili al pubblico. Questo ribaltamento non solo mette sotto pressione i modelli di prezzo di colossi come OpenAI e Anthropic—con modelli Baidu correlati che vantano un costo d’uso pari a una frazione irrisoria dei competitor—ma catalizza anche l’innovazione globale, rendendo l’intelligenza artificiale avanzata un bene più democratico e accessibile per sviluppatori e aziende in tutto il mondo.

Di Fantasy