Una recente innovazione introduce agenti intelligenti capaci di partecipare a meeting online sotto forma di avatar realistici, dotati di voce, memoria e capacità operative. Questo approccio rappresenta un cambiamento significativo rispetto ai chatbot tradizionali, trasformando l’interazione con l’intelligenza artificiale in una presenza visiva e conversazionale continua all’interno dei flussi di lavoro.
La tecnologia è stata sviluppata utilizzando un modello di generazione video in tempo reale, denominato PikaStream 1.0, che consente all’agente AI di entrare direttamente in piattaforme di videoconferenza come partecipante virtuale. L’utente può condividere semplicemente il link della riunione e il sistema genera automaticamente un avatar personalizzato che prende parte alla conversazione, interagisce con gli altri partecipanti e svolge attività operative come gestione del calendario, ricerca di informazioni e supporto decisionale.
L’elemento distintivo di questa soluzione è la capacità di interazione in tempo reale. Il sistema genera video e audio con una latenza di circa 1,5 secondi e produce flussi visivi a 24–30 fotogrammi al secondo, permettendo all’avatar di reagire con espressioni, gesti e sincronizzazione vocale simili a quelli umani. Questa caratteristica consente di superare il paradigma dei chatbot testuali, introducendo un’interazione più naturale e adatta ai contesti collaborativi.
L’agente può assumere diversi ruoli operativi durante una riunione. Le dimostrazioni iniziali hanno mostrato sistemi in grado di coordinare discussioni, sincronizzare calendari e prenotare appuntamenti, evidenziando una capacità non solo conversazionale ma anche esecutiva. Questo comportamento rappresenta un passaggio verso agenti autonomi che non si limitano a fornire informazioni, ma partecipano attivamente ai processi organizzativi.
Il sistema supporta la clonazione vocale basata su brevi campioni audio e consente di configurare l’aspetto dell’avatar utilizzando immagini generate o fotografie dell’utente. In questo modo è possibile creare un “gemello digitale” che partecipa alle riunioni al posto della persona, mantenendo uno stile comunicativo coerente.
La memoria persistente rappresenta un altro elemento centrale dell’architettura. A differenza dei chatbot tradizionali che perdono il contesto alla fine della sessione, l’agente mantiene informazioni sulle interazioni precedenti e sulle preferenze dell’utente. Questa continuità permette di sviluppare una personalità comunicativa stabile e di migliorare la coerenza nelle riunioni successive, rendendo l’AI un rappresentante digitale affidabile.
La piattaforma combina diverse architetture avanzate. Il sistema utilizza un Diffusion Transformer (DiT) per la generazione video, un encoder video basato su transformer denominato FlashVAE per la costruzione dello spazio latente e tecniche di ottimizzazione tramite reinforcement learning con feedback umano (RLHF). Questa integrazione consente di mantenere coerenza visiva, sincronizzazione audio e qualità dell’interazione in tempo reale.
FlashVAE svolge il ruolo di generare la struttura latente del video, mentre il modello DiT costruisce i frame utilizzando informazioni audio e visive. Il processo di streaming decoding permette di produrre il video progressivamente, riducendo i tempi di generazione rispetto ai modelli tradizionali. Inoltre, il sistema utilizza immagini di riferimento per mantenere la coerenza dell’aspetto dell’avatar durante tutta la sessione.
L’infrastruttura è progettata per facilitare l’integrazione con altri agenti AI. Il sistema viene distribuito sotto forma di “skills” che possono essere collegati a piattaforme agentiche esistenti senza configurazioni complesse. Questa modularità consente di utilizzare l’avatar come interfaccia visiva per agenti già operativi, ampliando le possibilità di automazione.
Il modello di utilizzo prevede un costo compreso tra circa 0,20 e 0,50 dollari al minuto, suggerendo un posizionamento orientato a contesti professionali. L’obiettivo dichiarato è evolvere l’interazione uomo-AI verso comunicazioni faccia a faccia, in cui gli agenti agiscono come rappresentanti digitali permanenti.