Immagine AI

La nuova EX60 segna un passaggio interessante nel modo in cui l’intelligenza artificiale entra nell’abitacolo. Non si tratta più di un assistente vocale tradizionale agganciato al sistema di infotainment, ma di un’integrazione nativa di Gemini direttamente nell’architettura software del veicolo, costruita attorno a HuginCore, la nuova piattaforma sviluppata internamente da Volvo che unifica hardware, software, computer centrali e controller di zona in una logica da software defined car, con aggiornamenti over-the-air continui come base di evoluzione delle funzioni di sicurezza e assistenza.

Il punto tecnicamente più rilevante è la combinazione di tre elementi che lavorano insieme: la comprensione multimodale del modello Gemini, capace di elaborare voce, immagini e contesto in modo unificato; un motore di elaborazione neurale (NPU) integrato a bordo, che esegue gran parte dei carichi di inferenza localmente in tempo reale senza dipendere costantemente dal cloud; e l’architettura software-defined del SUV, che consente all’AI di accedere a flussi di dati e sensori in modo strutturato. A supportare tutto questo c’è la piattaforma Snapdragon Cockpit di nuova generazione di Qualcomm, con Snapdragon Auto Connectivity per la parte di rete, e contributi NVIDIA sul fronte del calcolo.

La novità sostanziale rispetto agli assistenti vocali a cui siamo abituati è che Gemini, previo consenso esplicito di chi guida, può attingere alle telecamere dell’auto per interpretare l’ambiente circostante. Significa che il modello non risponde solo a una richiesta verbale astratta, ma può ragionare su ciò che la vettura sta effettivamente inquadrando in quel momento: cartelli stradali, segnaletica orizzontale, edifici, punti di riferimento come ristoranti o luoghi noti. È un cambio di paradigma rispetto al tradizionale comando vocale a stati rigidi, perché abilita interazioni contestuali del tipo “che ristorante è quello sulla destra” o “cosa indica quel cartello”, con una risposta generata sulla base del frame video reale e non di una conoscenza generica del modello.

Questo si traduce, sul piano dell’esperienza di guida, in una riduzione del bisogno di guardare lo schermo centrale e di ricordare comandi specifici, perché l’interazione diventa una conversazione naturale che può gestire anche compiti compositi, come recuperare un indirizzo da una mail e impostarlo come destinazione, o organizzare un itinerario in più tappe. Si aggancia inoltre alla cosiddetta Navigazione immersiva di Google Maps, che porta in plancia una rappresentazione 3D di edifici, gallerie e cavalcavia e indicazioni vocali ancorate a punti di riferimento reali anziché a sole distanze metriche.

Restano un paio di osservazioni di contesto importanti per leggere correttamente l’operazione. La prima è che le funzionalità basate sulle telecamere dipendono dal consenso del conducente e, presumibilmente, dal tipo di abbonamento ai servizi connessi, con risultati che possono variare nel tempo via aggiornamenti software. La seconda è che il fatto che parte dell’inferenza giri su NPU locale è una scelta architetturale rilevante non solo per la latenza, ma anche per la gestione della privacy dei flussi video, che in un sistema completamente cloud sarebbe molto più delicata. La terza è che siamo davanti al primo banco di prova reale di un modello di AI generativa multimodale integrato in modo nativo e non come strato applicativo su un’auto di produzione: il vero indicatore di maturità sarà osservare nel tempo come la pipeline percezione‑comprensione‑risposta si comporta nel quotidiano, fuori dai casi d’uso scelti per la demo.

Di Fantasy