LG AI Research ha presentato EXAONE 4.5, un nuovo modello multimodale progettato per comprendere e ragionare simultaneamente su testo e immagini, segnando un’evoluzione significativa nella famiglia EXAONE. Il modello è stato rilasciato come open-weight, scelta che consente a sviluppatori e aziende di utilizzare i pesi del modello per implementazioni personalizzate, mantenendo al contempo il controllo sulle applicazioni e sull’integrazione nei propri sistemi.
EXAONE 4.5 nasce come evoluzione diretta della linea multimodale sviluppata da LG a partire dal 2021, quando l’azienda introdusse EXAONE 1.0 come primo modello multimodale domestico. L’esperienza accumulata nel corso delle versioni successive ha permesso di migliorare la capacità di integrare diversi tipi di dati, in particolare l’elaborazione congiunta di contenuti testuali e visivi, elemento centrale del nuovo rilascio.
Il modello è progettato per gestire input multimodali in modo nativo, senza necessità di pipeline separate per testo e immagini. Questo approccio consente al sistema di analizzare simultaneamente contenuti visivi e descrizioni testuali, facilitando compiti complessi come interpretazione di documenti illustrati, analisi di diagrammi tecnici o ragionamento su scene fotografiche accompagnate da istruzioni. L’integrazione multimodale riduce la latenza tra le diverse fasi di elaborazione e migliora la coerenza delle risposte generate.
A differenza dei modelli completamente chiusi, EXAONE 4.5 consente agli sviluppatori di accedere ai pesi e adattare il modello a contesti specifici, come applicazioni industriali, ricerca o sistemi enterprise. Questo approccio favorisce l’adozione in ambienti in cui è necessario controllare i dati o personalizzare il comportamento del modello senza dipendere esclusivamente da API esterne.
EXAONE 4.5 è progettato per attività che richiedono ragionamento multimodale, combinando analisi visiva e comprensione linguistica. Il modello può essere utilizzato per generare descrizioni di immagini, interpretare grafici, supportare flussi di lavoro basati su documenti visivi e testuali e migliorare sistemi di assistenza tecnica che richiedono l’analisi di elementi visivi. Questa integrazione rappresenta una tendenza crescente verso modelli in grado di operare su diversi tipi di dati contemporaneamente.
L’approccio adottato da LG evidenzia inoltre un orientamento verso l’utilizzo enterprise. La possibilità di integrare testo e immagini nello stesso flusso consente di supportare scenari come document analysis, supporto tecnico assistito da immagini, automazione di processi industriali e analisi di contenuti visivi complessi.
