Thinking Machines sviluppa modelli AI per conversazioni vocali e video quasi in tempo reale

La startup Thinking Machines Lab, fondata dall’ex CTO di Mira Murati, ha mostrato in anteprima una nuova categoria di sistemi AI definiti “interaction models”, progettati per superare uno dei limiti più evidenti degli attuali modelli multimodali: la comunicazione a turni separati tra utente e intelligenza artificiale.

L’obiettivo tecnico del progetto non è semplicemente migliorare le capacità vocali degli assistenti AI già esistenti, ma modificare l’architettura stessa dell’interazione uomo-macchina. Nei modelli tradizionali, l’AI riceve un input completo — un testo, una frase vocale o un’immagine — lo elabora e solo successivamente genera una risposta. Durante la fase di generazione, il sistema interrompe di fatto la percezione continua dell’ambiente e dell’utente. Questo schema introduce latenze, perdita di contesto dinamico e un’interazione artificiale che rimane inevitabilmente “a blocchi”.

I nuovi interaction models sviluppati da Thinking Machines cercano invece di mantenere attiva simultaneamente la percezione e la generazione. Il sistema continua a ricevere audio, video e testo mentre produce risposte vocali o operative in tempo reale. In pratica, l’AI non aspetta più che l’utente finisca di parlare per iniziare a comprendere il contesto. Questo approccio permette un comportamento molto più vicino alle dinamiche comunicative umane, dove ascolto, interpretazione e risposta avvengono in parallelo e in maniera continua.

Questo richiede una revisione profonda delle pipeline multimodali. Nei modelli AI tradizionali, le componenti speech-to-text, reasoning e text-to-speech operano spesso come moduli separati concatenati tra loro. Ogni passaggio introduce latenza e perdita di informazioni contestuali sottili, come tono della voce, esitazioni, variazioni emotive o cambiamenti dell’ambiente visivo. Thinking Machines sta invece lavorando a un’architettura nativamente multimodale e persistente, dove audio, immagini e testo vengono elaborati come flussi sincronizzati e continui.

La società ha mostrato alcuni esempi pratici che chiariscono bene la direzione tecnica del progetto. In uno scenario dimostrativo, il sistema riesce a seguire una conversazione mentre osserva contemporaneamente il video della scena, identificando elementi contestuali citati durante il dialogo. In altri casi, l’AI interviene durante la comunicazione senza attendere la fine dell’interazione, ad esempio traducendo il parlato in tempo reale o reagendo immediatamente a posture e movimenti dell’utente rilevati dalla videocamera.

Questa evoluzione si collega direttamente alla crescente convergenza tra modelli multimodali, sistemi vocali real-time e AI agentica. Il mercato sta rapidamente spostandosi da chatbot testuali verso sistemi capaci di operare come interlocutori permanenti, in grado di osservare ambienti, comprendere dinamiche contestuali e mantenere memoria continua della sessione. Le interfacce conversazionali diventano quindi persistenti anziché episodiche.

Uno degli aspetti più complessi riguarda proprio la gestione della latenza. Per ottenere conversazioni realmente naturali, il tempo di risposta deve avvicinarsi alle soglie tipiche della comunicazione umana, che spesso si collocano nell’ordine di poche centinaia di millisecondi. Nei sistemi multimodali avanzati, però, il carico computazionale cresce enormemente: il modello deve analizzare voce, immagini, contesto semantico e intenzione dell’utente mentre continua contemporaneamente a generare output coerenti. Questo implica ottimizzazioni profonde sia a livello di inferenza AI sia nelle pipeline di streaming audio-video.

La ricerca più recente sull’AI conversazionale sta infatti convergendo verso architetture “streaming-native”, progettate per elaborare dati continui anziché richieste discrete. Gli interaction models di Thinking Machines si inseriscono precisamente in questa direzione tecnologica. L’interattività non viene trattata come un livello software aggiunto sopra il modello, ma come una componente strutturale del modello stesso.

Dal punto di vista industriale, il potenziale applicativo è enorme. Sistemi di questo tipo potrebbero trasformare radicalmente customer support, telemedicina, tutoring AI, collaborazione aziendale, assistenza remota, smart glasses e ambienti mixed reality. Un assistente AI capace di osservare continuamente il contesto video e dialogare senza interruzioni potrebbe diventare un layer operativo permanente tra utente e software, sostituendo progressivamente molte interfacce tradizionali basate su menu, ricerca e input manuali.

L’aspetto più interessante è che Thinking Machines sembra voler posizionare questa tecnologia non come semplice “voice assistant”, ma come nuova infrastruttura di collaborazione uomo-AI. La differenza è sostanziale. Gli attuali assistenti vocali rispondono a comandi. Gli interaction models, invece, puntano a costruire un’interazione continua e bidirezionale, in cui il sistema mantiene consapevolezza persistente dello stato della conversazione e dell’ambiente circostante.

Questo approccio aumenta però anche la complessità dei problemi legati a privacy, gestione dei dati e sicurezza operativa. Un modello che riceve continuamente flussi audio e video deve necessariamente implementare sistemi avanzati di filtraggio, controllo contestuale e gestione granulare delle autorizzazioni. Inoltre, la permanenza della percezione ambientale apre nuove problematiche relative alla memorizzazione implicita di informazioni sensibili e alla governance dei dati multimodali. Proprio per questo motivo, molte aziende AI stanno lavorando parallelamente su tecniche di inferenza locale, elaborazione edge e segmentazione contestuale dei flussi in tempo reale.

Thinking Machines non ha ancora rilasciato pubblicamente tutti i dettagli architetturali né benchmark completi dei nuovi modelli, ma il progetto mostra chiaramente la direzione che sta prendendo il settore AI avanzato: passare da sistemi reattivi basati su prompt a sistemi conversazionali persistenti, multimodali e continuamente sincronizzati con l’ambiente reale.

Thinking Machines sviluppa modelli AI per conversazioni vocali e video quasi in tempo reale

DiFantasy

Di Fantasy

Articoli correlati

Perplexity presenta un sistema di inferenza ibrida che combina elaborazione locale e cloud

Microsoft presenta Surface RTX Spark Dev Box per eseguire modelli AI avanzati in locale

NVIDIA Cosmos 3, modello fondativo aperto che unisce ragionamento visivo, simulazione del mondo e generazione di azioni per l’AI fisica

Ultimi Post

Perplexity presenta un sistema di inferenza ibrida che combina elaborazione locale e cloud

Microsoft presenta Surface RTX Spark Dev Box per eseguire modelli AI avanzati in locale

NVIDIA Cosmos 3, modello fondativo aperto che unisce ragionamento visivo, simulazione del mondo e generazione di azioni per l’AI fisica

Anthropic valuta l’accesso di ENISA UE a Claude Mythos, il modello AI specializzato nella cybersecurity