La storia di Enzo Spatalino rappresenta uno dei casi più concreti e simbolici dell’utilizzo dell’intelligenza artificiale generativa come strumento di continuità professionale e comunicativa dopo una grave malattia. Il giornalista e opinionista televisivo padovano, volto noto dell’emittente Prima Free e ospite frequente della trasmissione radiofonica “La Zanzara”, è tornato in televisione grazie a un avatar digitale costruito tramite AI dopo aver perso completamente la voce in seguito a un intervento chirurgico per l’asportazione di un tumore alla laringe.
Il caso è particolarmente interessante perché mostra in modo molto concreto l’evoluzione delle tecnologie di avatarizzazione AI applicate alla comunicazione umana. Spatalino, ottantenne, era stato operato nei mesi scorsi per la rimozione di un tumore sotto la laringe. La lunga degenza e le terapie successive, comprese numerose sedute di radioterapia, gli hanno impedito di utilizzare la voce, interrompendo di fatto la sua attività televisiva.
La soluzione sviluppata dal team tecnico che collabora con Prima Free ha utilizzato una combinazione di voice cloning, sintesi video neurale e animazione facciale generativa. I collaboratori di Spatalino hanno raccolto e campionato grandi quantità di materiale archivistico proveniente dalle sue trasmissioni passate: video, audio, movimenti facciali, intonazioni vocali, gestualità e pattern comunicativi sono stati utilizzati per addestrare un modello AI capace di ricostruire digitalmente il giornalista con un livello di realismo estremamente elevato.
Il sistema appartiene alla nuova generazione dei cosiddetti “digital human systems”, piattaforme AI capaci di simulare voce, espressioni e movimenti di una persona reale attraverso modelli neurali multimodali. La pipeline normalmente prevede differenti livelli computazionali. Una prima componente riguarda il voice cloning, cioè la ricostruzione sintetica della voce tramite modelli text-to-speech addestrati sul parlato originale del soggetto. Una seconda componente gestisce invece animazione facciale e sincronizzazione labiale, facendo muovere volto, occhi e bocca in modo coerente con il testo generato.
Nel caso di Spatalino, il giornalista continua a scrivere personalmente i propri interventi da casa. Successivamente il sistema AI converte il testo in parlato sintetico utilizzando una replica digitale della sua voce e sincronizza automaticamente il volto virtuale con le parole pronunciate. L’avatar mantiene persino alcuni elementi caratteristici della sua presenza televisiva, comprese gestualità, movimenti delle mani e toni accesi tipici dello stile comunicativo del giornalista.
Secondo l’editore Alessandro Brunello, molti telespettatori inizialmente non si sono nemmeno accorti che il conduttore non fosse realmente in studio. Questo elemento evidenzia il livello raggiunto dalle moderne tecnologie di sintesi audiovisiva AI. I sistemi contemporanei riescono infatti a generare volti digitali estremamente realistici, riducendo progressivamente gli artefatti visivi tipici dei primi deepfake diffusi pochi anni fa.
L’infrastruttura tecnica utilizzata dal team di Spatalino è stata sviluppata da Alessandra Meazzo, Eddy Fedato e Alberto Diana, che hanno lavorato alla ricostruzione digitale del personaggio televisivo utilizzando archivi audiovisivi accumulati negli anni. Questo approccio riflette uno degli aspetti più importanti dell’attuale evoluzione AI: la possibilità di costruire identità digitali persistenti partendo da materiale audiovisivo preesistente.
Le tecnologie di voice cloning e avatarizzazione stanno infatti diventando strumenti sempre più importanti per pazienti colpiti da malattie neurodegenerative, tumori alla laringe o condizioni che compromettono comunicazione verbale e motricità facciale. Negli ultimi anni diversi progetti di ricerca hanno sviluppato sistemi AI capaci di preservare digitalmente la voce di persone destinate a perderla progressivamente a causa di SLA, Parkinson o interventi chirurgici invasivi.
L’elemento distintivo della vicenda Spatalino riguarda però la trasformazione completa della presenza televisiva. Non si tratta soltanto di una voce sintetica utilizzata come ausilio comunicativo, ma di una replica audiovisiva quasi completa del giornalista all’interno del contesto televisivo reale. Questo sposta il dibattito verso una dimensione molto più ampia: il rapporto tra autenticità, identità digitale e rappresentazione pubblica nell’era dell’intelligenza artificiale generativa.
Lo stesso Spatalino ha dichiarato di aver inizialmente reagito con scetticismo davanti alla proposta di tornare in onda tramite AI, salvo poi emozionarsi profondamente vedendosi nuovamente operativo sullo schermo. Il giornalista ha però sottolineato anche un limite fondamentale della tecnologia: l’avatar può replicare voce, movenze e immagine, ma non può sostituire completamente il rapporto umano costruito negli anni con il pubblico.