IIIT Hyderabad lancia Patram, primo modello vision-linguistico indiano per l’elaborazione di documenti

DiFantasy

Giu 4, 2025

L’IIIT Hyderabad ha annunciato il lancio di Patram, il primo modello fondamentale vision-linguistico indiano progettato per l’elaborazione di documenti. Questo modello, con 7 miliardi di parametri, è stato sviluppato per comprendere e interagire con documenti scansionati e fotografati, rispondendo a istruzioni in linguaggio naturale.

Patram è stato addestrato utilizzando un vasto corpus di dati contenenti immagini di documenti e relative trascrizioni, permettendo al modello di apprendere la correlazione tra contenuti visivi e linguistici. Nonostante le sue dimensioni contenute, Patram ha dimostrato prestazioni competitive rispetto a modelli internazionali più grandi, come DeepSeek-VL-2, su benchmark come DocVQA e VisualMRC. Inoltre, ha ottenuto risultati significativi su Patram-Bench, un set di valutazione personalizzato che riflette scenari documentali indiani.

Patram è stato reso disponibile come open-source su piattaforme come Hugging Face e AIKosh, facilitando l’accesso alla comunità di ricerca e agli sviluppatori. Questo approccio open-source promuove l’adozione e l’ulteriore sviluppo del modello, consentendo a una vasta gamma di utenti di sfruttare le sue capacità.

Il lancio di Patram rappresenta un passo significativo verso l’autosufficienza dell’India nel campo dell’intelligenza artificiale, riducendo la dipendenza da modelli sviluppati all’estero. Inoltre, Patram offre un potenziale significativo per applicazioni in vari settori, tra cui la governance, l’istruzione, la legge e gli affari, migliorando l’efficienza e l’accessibilità nell’elaborazione dei documenti.

IIIT Hyderabad lancia Patram, primo modello vision-linguistico indiano per l’elaborazione di documenti

DiFantasy

Di Fantasy

Articoli correlati

LIMI – Less Is More for IA: come 78 esempi bastano per addestrare agenti AI autonomi

IBM Granite 4.0: un’architettura ibrida che ridefinisce gli LLM aperti

Google Jules evolve: da chatbot web di codifica ad assistente integrato nei flussi di sviluppo

Ultimi Post

LIMI – Less Is More for IA: come 78 esempi bastano per addestrare agenti AI autonomi

IBM Granite 4.0: un’architettura ibrida che ridefinisce gli LLM aperti

Meta costruisce Business AI, assistente intelligente per venditori e inserzionisti

Google Jules evolve: da chatbot web di codifica ad assistente integrato nei flussi di sviluppo