H2O.ai, un fornitore di piattaforme di intelligenza artificiale open source, ha annunciato oggi il lancio di due nuovi modelli di linguaggio visivo, H2OVL Mississippi-2B e H2OVL-Mississippi-0.8B, progettati per migliorare l’analisi dei documenti e il riconoscimento ottico dei caratteri (OCR). Questi modelli dimostrano prestazioni competitive rispetto a soluzioni molto più grandi offerte dai principali attori del settore, offrendo così una soluzione potenzialmente più efficiente per le aziende con flussi di lavoro documentali intensivi.
Il modello H2OVL Mississippi-0.8B, con soli 800 milioni di parametri, ha superato modelli con miliardi di parametri nel compito di riconoscimento del testo su OCRBench. Il modello H2OVL Mississippi-2B, dotato di 2 miliardi di parametri, ha mostrato solidi risultati in diversi benchmark di linguaggio visivo.
Sri Ambati, CEO e fondatore di H2O.ai, ha dichiarato: “Abbiamo progettato i modelli H2OVL Mississippi per offrire alte prestazioni a un costo contenuto, portando soluzioni di OCR basate su AI, comprensione visiva e Document AI alle aziende”. Questi modelli combinano tecnologie AI multimodali avanzate con efficienza, offrendo soluzioni precise e scalabili per diversi settori.
Il rilascio di questi modelli segna un passo significativo nella strategia di H2O.ai per rendere l’AI più accessibile. I modelli sono disponibili gratuitamente su Hugging Face, una popolare piattaforma di condivisione di modelli di machine learning, consentendo a sviluppatori e aziende di modificarli e adattarli per le proprie esigenze.
Ambati ha evidenziato anche i vantaggi economici di utilizzare modelli più piccoli e specializzati, affermando che questi possono essere eseguiti in modo efficiente e sostenibile, riducendo i costi. Questo è particolarmente importante per le aziende che devono gestire grandi volumi di documenti, poiché i metodi tradizionali di analisi e OCR spesso falliscono con scansioni di bassa qualità o testi difficili da interpretare.
Gli analisti del settore avvertono che l’approccio di H2O.ai potrebbe cambiare le dinamiche del mercato, attualmente dominato dai grandi nomi della tecnologia. Concentrandosi su modelli più piccoli e specializzati, H2O.ai potrebbe attrarre aziende che cercano efficienza e risparmio.
Un confronto tra le prestazioni del modello H2OVL Mississippi-2B e i concorrenti, tra cui quelli di Microsoft e Google, evidenzia i solidi risultati di H2O.ai. Il modello si posiziona tra i migliori nella sua categoria.
Con un finanziamento di 256 milioni di dollari da investitori come Commonwealth Bank, Nvidia e Goldman Sachs, l’azienda ha creato una comunità di oltre 20.000 organizzazioni, inclusa più della metà delle aziende Fortune 500.
Con l’aumento della digitalizzazione e la necessità di estrarre valore dai dati non strutturati, i nuovi modelli di H2O.ai potrebbero rappresentare un’opzione interessante per le aziende che desiderano implementare soluzioni di intelligenza artificiale documentale senza il sovraccarico computazionale dei modelli più grandi.
Sarà interessante vedere come si comporteranno nelle applicazioni pratiche, ma le prestazioni competitive dimostrate suggeriscono un futuro promettente per l’intelligenza artificiale aziendale.