Nel contesto attuale dello sviluppo dell’intelligenza artificiale, uno dei limiti strutturali più evidenti riguarda la gestione delle cosiddette lingue a bassa risorsa, ovvero quelle varietà linguistiche per le quali esistono pochi dati digitali disponibili. Il caso del dialetto napoletano rappresenta un esempio emblematico di questa criticità, ma anche un terreno di sperimentazione avanzata, come dimostra il progetto “Parla Chiaro” sviluppato dall’Università degli Studi di Napoli Federico II.
Il progetto si inserisce all’interno della Lingua Open Call promossa dall’AI for Good Lab di Microsoft, un’iniziativa europea finalizzata a ridurre il divario digitale tra lingue ad alta e bassa disponibilità di dati. In questo scenario, il napoletano assume un ruolo strategico, non solo come espressione culturale, ma come caso tecnico complesso che mette alla prova le capacità dei modelli linguistici contemporanei.
Il dialetto napoletano non è una varietà standardizzata, ma un sistema dinamico caratterizzato da forte variabilità fonetica, lessicale e sintattica, con radici storiche che affondano nel latino e influenze successive provenienti da diverse dominazioni culturali. Questa complessità rende particolarmente difficile la modellazione automatica, poiché non esistono regole univoche né una ortografia condivisa su cui basare l’addestramento dei sistemi di intelligenza artificiale.
Il progetto “Parla Chiaro” affronta questa sfida attraverso un approccio multidisciplinare che combina competenze ingegneristiche, linguistiche e applicative. L’obiettivo principale è la costruzione di un’infrastruttura capace di comprendere e interpretare espressioni dialettali, riducendo il rischio di incomprensioni, in particolare in contesti critici come quello sanitario. In questi ambiti, un errore di interpretazione linguistica non è soltanto un problema teorico, ma può tradursi in conseguenze concrete sulla qualità del servizio e sulla sicurezza del paziente.
Uno degli elementi più innovativi del progetto è lo sviluppo di un sistema definito “Dialect-Aware Warning System”. Questo meccanismo opera come un livello intermedio tra input e interpretazione, analizzando automaticamente le espressioni dialettali e individuando quelle potenzialmente ambigue o difficili da interpretare. In presenza di tali criticità, il sistema può suggerire chiarimenti o avviare una traduzione semiautomatica verso una forma linguistica più standardizzata.
Questa architettura introduce un concetto fondamentale: l’intelligenza artificiale non deve necessariamente comprendere perfettamente ogni variante linguistica, ma può essere progettata per riconoscere i propri limiti e attivare meccanismi di gestione dell’incertezza. In altre parole, il valore del sistema non risiede soltanto nella capacità di produrre risposte corrette, ma anche nella capacità di identificare quando una risposta potrebbe non esserlo.
Un ulteriore aspetto centrale riguarda la creazione di dataset specifici per il dialetto napoletano. Poiché i modelli linguistici apprendono attraverso l’esposizione a grandi quantità di dati, la mancanza di corpora adeguati rappresenta uno dei principali ostacoli allo sviluppo di soluzioni efficaci. Il progetto prevede quindi la raccolta e strutturazione di dati linguistici autentici, con particolare attenzione al parlato reale, che costituisce la forma più rappresentativa e al tempo stesso più difficile da modellare.
Questo lavoro di costruzione del dato ha implicazioni che vanno oltre il singolo progetto. La disponibilità di dataset pubblici dedicati ai dialetti italiani può infatti favorire lo sviluppo di nuovi modelli, benchmark e applicazioni, contribuendo a ridurre il bias linguistico che caratterizza molte tecnologie attuali. Le lingue ad alta risorsa, come inglese o spagnolo, beneficiano di una sovrabbondanza di dati che si traduce in prestazioni elevate, mentre i dialetti restano spesso esclusi o trattati in modo approssimativo.
Il caso del napoletano evidenzia anche una questione più ampia legata all’inclusione digitale. L’accesso ai servizi basati su intelligenza artificiale presuppone la capacità di interagire in una lingua riconosciuta dal sistema. Quando questo requisito non è soddisfatto, si crea una forma di esclusione invisibile, che penalizza intere comunità linguistiche. In questo senso, progetti come “Parla Chiaro” non sono soltanto iniziative tecnologiche, ma interventi mirati a garantire equità nell’accesso alle innovazioni digitali.
Le potenzialità di questo tipo di tecnologia sono molteplici. Oltre all’ambito sanitario, sistemi capaci di comprendere il dialetto potrebbero essere utilizzati nei servizi pubblici, nei contact center, nelle piattaforme di assistenza automatizzata e nei sistemi educativi. La capacità di adattarsi alla lingua dell’utente rappresenta infatti un elemento chiave per migliorare l’efficacia e l’accessibilità dei servizi digitali.
Allo stesso tempo, emergono nuove sfide legate alla valutazione delle prestazioni. Misurare l’accuratezza di un sistema su una lingua standard è relativamente semplice, ma diventa molto più complesso quando si tratta di dialetti, in cui non esiste una “risposta corretta” univoca. Questo richiede lo sviluppo di nuovi criteri di valutazione, capaci di tenere conto della variabilità linguistica e del contesto d’uso.
L’iniziativa descritta da Ateneapoli rappresenta quindi un esempio concreto di come l’intelligenza artificiale stia evolvendo da tecnologia generalista a sistema sempre più attento alle specificità linguistiche e culturali. Il passaggio dalla gestione delle lingue standard alla comprensione dei dialetti segna un salto qualitativo, che implica non solo avanzamenti tecnici, ma anche una maggiore sensibilità verso la diversità linguistica.
