La comprensione AI del linguaggio naturale ha fatto passi da gigante, ma ci sono contesti culturali e linguistici che mettono ancora alla prova anche i sistemi più avanzati. Uno di questi è l’India, dove nella comunicazione quotidiana molte persone mescolano lingue diverse in una stessa frase. Questa commistione di Hindi, inglese e delle numerose lingue regionali viene chiamata “code-mixing” o code-switching, e rappresenta una sfida importante per i modelli di riconoscimento vocale tradizionali, che spesso sono stati pensati per funzionare con una lingua alla volta e non per gestire fluidamente alternanze e miscugli linguistici all’interno di un singolo enunciato. Per affrontare questa specificità linguistica, Shunya Labs ha recentemente presentato Zero Codeswitch, un innovativo modello di intelligenza artificiale che cerca di comprendere davvero “come parlano gli indiani”, cioè in un inglese mescolato con Hindi e altre lingue regionali senza richiedere passaggi intermedi di traduzione o normalizzazione linguistica.
Il problema che Zero Codeswitch vuole risolvere è più profondo di quanto possa sembrare a prima vista. In molte parti del mondo i sistemi di riconoscimento vocale funzionano discretamente bene per frasi in una sola lingua, ma in India le conversazioni quotidiane intrecciano parole di lingue diverse in modo del tutto naturale. Per esempio, espressioni come “Mujhe account balance dekhna hai” combinano termini Hindi e inglesi in un unico impulso linguistico, e richiedono che il modello interpreti questa miscela senza dover “switchare” mentalmente da una lingua all’altra. Il nuovo modello di Shunya Labs è stato progettato proprio per questo: non solo può decodificare frasi miste generate in tempo reale da parlanti reali, ma lo fa con un livello di accuratezza che gli sviluppatori descrivono come significativamente superiore rispetto ai concorrenti attuali. Sul leaderboard internazionale OpenASR, Zero Codeswitch ha registrato un tasso di errore di parola (WER) del 3,10 %, un valore che rappresenta circa il 48 % di miglioramento rispetto al secondo classificato.
Il valore di questo risultato non è solo statistico, ma ha implicazioni molto pratiche. I sistemi di riconoscimento vocale che non comprendono bene le espressioni code-mixed possono avere difficoltà a trascrivere correttamente dialoghi reali, soprattutto in ambienti non anglofoni. Questo limita sia l’adozione di interfacce vocali da parte degli utenti sia l’efficacia di applicazioni come assistenti vocali, centri assistenza automatizzati o strumenti di trascrizione per servizi pubblici o aziendali. Zero Codeswitch, essendo costruito “da zero” su dati di parlato realmente raccolti in India, incorpora accenti, dialetti, pronunce variabili, slang e translitterazioni che riflettono la ricchezza linguistica del Paese. Non si tratta di adattare un modello costruito per l’inglese o un’altra lingua: il modello è addestrato direttamente su milioni di ore di conversazioni multilingue, così da mappare la fonetica e il significato così come emergono nella vita quotidiana delle persone.
Un altro aspetto notevole di Zero Codeswitch riguarda la progettazione tecnica orientata all’efficienza. Invece di richiedere costose GPU (unità di elaborazione grafica) per funzionare, il sistema è stato ottimizzato per essere eseguito su CPU standard, il che può ridurre i costi di implementazione fino a 20 volte rispetto a molti altri modelli di speech-to-text più tradizionali. Questa caratteristica è particolarmente importante per applicazioni reali in cui la scalabilità economica e le risorse hardware disponibili possono essere limitate, come nei servizi di assistenza al cliente su larga scala o nelle applicazioni governative in aree remote. Inoltre, mantenendo una latenza inferiore ai 100 millisecondi, il modello può essere utilizzato in scenari in cui la reattività in tempo reale è cruciale, come negli assistenti vocali o nei sistemi interattivi automatizzati.
Dal punto di vista dell’adozione pratica, Shunya Labs sottolinea che il suo modello è pensato per usi enterprise e nel settore pubblico, dove esigenze di privacy e controllo dei dati sono fondamentali. Il modello può essere distribuito internamente presso organizzazioni o in ambienti “air-gapped”, cioè isolati dalla rete pubblica, permettendo di addestrare implementazioni specifiche per dominio senza esporre dati sensibili a servizi esterni. Queste caratteristiche lo rendono attraente per istituzioni che trattano informazioni delicate, come strutture sanitarie, istituzioni finanziarie o servizi governativi, dove la conformità a standard internazionali di sicurezza (come HIPAA, SOC 2 Type II o ISO 27001) è un requisito imprescindibile.
Ma l’importanza di Zero Codeswitch va oltre una singola innovazione tecnologica. Essa si inserisce in un più ampio sforzo di creare infrastrutture di intelligenza artificiale radicate nelle esigenze linguistiche e culturali locali piuttosto che adattarsi a modelli linguistici preesistenti pensati per mercati occidentali. In un Paese come l’India, dove esistono centinaia di lingue e dialetti e dove l’uso misto di lingue è la norma piuttosto che l’eccezione, un sistema che capisce prima di tutto come le persone parlano davvero rappresenta un salto verso servizi digitali più accessibili, inclusivi e utili per milioni di utenti.
