Immagine AI

Gnani.ai ha presentato Inya VoiceOS, un modello fondazionale da 5 miliardi di parametri che si distingue per essere il primo sistema “voice-to-voice” sviluppato interamente in India. A differenza delle soluzioni tradizionali, che operano attraverso una pipeline sequenziale composta da Speech-to-Text (STT), Large Language Model (LLM) testuale e Text-to-Speech (TTS), Inya VoiceOS elimina le fasi intermedie di trascrizione. Il modello opera direttamente in uno spazio acustico e semantico unificato, processando i token audio in entrata e generando risposte vocali in uscita senza mai convertire il segnale in stringhe di testo.

Questa architettura end-to-end risolve due dei problemi più critici delle IA vocali: la latenza e la perdita di contesto paralinguistico. Operando nativamente sul segnale audio, Inya VoiceOS raggiunge una latenza di risposta sub-secondale, eliminando i ritardi computazionali intrinseci nei passaggi di conversione tra formati diversi. Inoltre, la capacità di codificare congiuntamente fonetica, prosodia e intenti permette al modello di catturare e preservare le sfumature emotive, il tono, il ritmo e le pause del parlato umano. Questo significa che l’IA non comprende solo “cosa” viene detto, ma “come” viene detto, riuscendo a gestire interruzioni, sovrapposizioni vocali e correzioni a metà frase (mid-utterance corrections) con una fluidità naturale che i sistemi basati su testo faticano a replicare.

Sotto il profilo dell’addestramento, Inya VoiceOS poggia su un dataset di dimensioni monumentali, ottimizzato per la diversità linguistica del subcontinente indiano. Il modello è stato istruito su oltre 14 milioni di ore di dati vocali multilingue e rifinito con 1,2 milioni di ore di dati specifici per compiti verticali (fine-tuning). Per garantire una solida base di ragionamento logico, l’addestramento è stato integrato con 8 trilioni di token testuali, fornendo al sistema una capacità di “grounding” linguistico superiore. Il risultato è un motore che supporta nativamente oltre 15 lingue indiane e gestisce con precisione il “code-mixing”, ovvero la pratica comune di alternare diverse lingue all’interno dello stesso discorso, mantenendo una qualità audio di output a 24 kHz.

L’integrazione hardware gioca un ruolo altrettanto vitale. Sviluppato in collaborazione con NVIDIA, Inya VoiceOS sfrutta la potenza di calcolo dei sistemi NVIDIA Hopper e lo stack software NVIDIA AI Enterprise, inclusi i microservizi NVIDIA NIM per un’inferenza ottimizzata. L’uso di tecnologie come NVIDIA TensorRT-LLM e NVIDIA Riva permette di scalare il sistema fino a gestire milioni di interazioni giornaliere su infrastrutture on-premise o cloud sovrani. Questa indipendenza infrastrutturale è un pilastro della strategia di Gnani.ai, volta a garantire che i dati sensibili delle organizzazioni governative, finanziarie e sanitarie rimangano protetti all’interno dei confini nazionali, in linea con i principi della “Sovereign AI”.

Le applicazioni pratiche di Inya VoiceOS spaziano dai servizi di emergenza e helpdesk governativi ai flussi di lavoro complessi nei settori BFSI (Banking, Financial Services and Insurance) e della logistica. La capacità dell’IA di agire come un sistema operativo vocale (VoiceOS) permette di automatizzare processi decisionali hands-free, dove l’utente può interagire con sistemi gestionali complessi usando semplicemente la voce. Con una versione più ampia da 14 miliardi di parametri già in fase di sviluppo, il Progetto Inya non rappresenta solo un traguardo tecnico per l’elaborazione del segnale neurale, ma definisce un nuovo standard per l’interazione uomo-macchina, dove la voce diventa l’interfaccia primaria, immediata e culturalmente consapevole.

Di Fantasy