L’IIIT Hyderabad ha annunciato il lancio di Patram, il primo modello fondamentale vision-linguistico indiano progettato per l’elaborazione di documenti. Questo modello, con 7 miliardi di parametri, è stato sviluppato per comprendere e interagire con documenti scansionati e fotografati, rispondendo a istruzioni in linguaggio naturale.
Patram è stato addestrato utilizzando un vasto corpus di dati contenenti immagini di documenti e relative trascrizioni, permettendo al modello di apprendere la correlazione tra contenuti visivi e linguistici. Nonostante le sue dimensioni contenute, Patram ha dimostrato prestazioni competitive rispetto a modelli internazionali più grandi, come DeepSeek-VL-2, su benchmark come DocVQA e VisualMRC. Inoltre, ha ottenuto risultati significativi su Patram-Bench, un set di valutazione personalizzato che riflette scenari documentali indiani.
Patram è stato reso disponibile come open-source su piattaforme come Hugging Face e AIKosh, facilitando l’accesso alla comunità di ricerca e agli sviluppatori. Questo approccio open-source promuove l’adozione e l’ulteriore sviluppo del modello, consentendo a una vasta gamma di utenti di sfruttare le sue capacità.
Il lancio di Patram rappresenta un passo significativo verso l’autosufficienza dell’India nel campo dell’intelligenza artificiale, riducendo la dipendenza da modelli sviluppati all’estero. Inoltre, Patram offre un potenziale significativo per applicazioni in vari settori, tra cui la governance, l’istruzione, la legge e gli affari, migliorando l’efficienza e l’accessibilità nell’elaborazione dei documenti.