Da sempre, quando parliamo di intelligenze artificiali conversazionali pensiamo ad un assistente che risponde, suggerisce, dialoga. Ma quante volte quel “fare” che desideriamo — completare un’operazione, interagire con un sito, eseguire una transazione — resta un’illusione? È proprio in questo spazio sospeso che entra in gioco AUI, una startup che sta cercando di colmare il divario tra “parlare” e “agire”, proponendo un modello che assicura non solo risposte plausibili, ma azioni veramente affidabili.

L’idea motrice dietro Apollo-1 nasce da una constatazione che gli esperti ben conoscono: anche i migliori modelli AI oggi, pur evoluti nel linguaggio e nella comprensione contestuale, falliscono troppo spesso quando devono completare compiti concreti al di fuori del dialogo astratto. Benchmark come Terminal-Bench Hard mostrano performance arretrate: anche nei migliori casi, i modelli riescono a risolvere compiti browser-based soltanto nel 30% delle situazioni. In scenari più specifici, come la prenotazione di voli (ospitati in test come TAU-Bench Airline), persino i migliori agenti commettono errori quasi nella metà dei casi. In questo contesto, AUI sostiene di aver progettato una soluzione che porta l’affidabilità a livelli utili per le aziende — non “probabilmente” corretta, ma “quasi sempre” corretta.

Il cuore dell’approccio risiede nel cosiddetto “ragionamento neuro-simbolico con stato” (stateful neuro-symbolic reasoning). Qui l’obiettivo non è più far sì che il modello generi la parola successiva più probabile, ma che decida l’azione successiva all’interno di uno stato simbolico che rappresenta l’interazione corrente. In questa architettura, un’interfaccia in linguaggio naturale viene innanzitutto tradotta in uno “stato simbolico”, ossia una rappresentazione strutturata di intenzioni, entità, parametri e vincoli. Su questo stato opera un motore decisionale, che sceglie l’azione adeguata (tipo “favore clic su questo bottone”, “esegui questo flusso”, “verifica condizione”), e infine una componente che traduce la scelta nella risposta umana. Il processo si ripete in loop fino al completamento del compito. In questo modo AUI sostiene di ottenere determinismo nell’azione, cioè un comportamento che risponde a regole precise, anziché probabilità indefinita.

Apollo-1 non è pensato per essere un mero bot, né una semplice estensione di modelli conversazionali: è concepito come modello “fondamentale” per il dialogo orientato ai compiti. Il modello viene configurato per ogni dominio (bancario, viaggi, retail, assicurazioni) tramite un “System Prompt” che non è semplicemente un file di parametri, ma ciò che AUI chiama un “contratto comportamentale”. In pratica, nel prompt si definiscono le politiche, le condizioni, i vincoli da rispettare, i flussi logici che l’agente non può trasgredire: Apollo-1 si impegna a farli valere sempre, non “saltuariamente”. Ad esempio, se una banca richiede l’identificazione per rimborsi superiori a 200 €, quella condizione diventa parte dei vincoli incontestabili del comportamento. Se una compagnia aerea vuole che venga offerto un upgrade di classe prima dell’economy all’utente, quella regola entra a far parte del modello stesso. Questo significa che l’agente non “decide” solo sulla base della probabilità statistica, ma segue linee guida simboliche che vincolano le sue azioni.

I numeri presentati da AUI sono sorprendenti: nei test interni, Apollo-1 avrebbe raggiunto un tasso di completamento (pass rate) del 92,5 % sul benchmark TAU-Bench Airline. Un risultato che supera di gran lunga i concorrenti attuali. L’azienda afferma che in scenari live di prenotazione su Google Flights il modello ha completato il compito con successo l’83 % delle volte, contro appena il 22 % di Gemini 2.5-Flash; e nei casi di e-commerce su Amazon, Apollo-1 avrebbe operato con successo nel 91 % dei casi, contro il 17 % di un concorrente chiamato Rufus. Questi salti di performance non sono semplici affinamenti numerici, ma — secondo AUI — segnali di un’architettura qualitativamente diversa.

È importante sottolineare che AUI non si presenta come antagonista delle grandi architetture conversazionali basate su modelli generativi. Il messaggio dei suoi fondatori è che questi modelli sono eccellenti nel “dialogo aperto”, nell’interpretare interrogazioni complesse, nel generare testo creativo, ma non sono adatti a garantire comportamenti rigorosi quando l’azione è vincolata. Apollo-1 è pensato come complemento: i due mondi — creatività e certezza — secondo AUI devono cooperare per costruire intelligenze conversazionali complete.

AUI è già attiva in progetti pilota con aziende “Fortune 500” del settore finanziario, del travel e del retail, anche se i partner non sono stati resi noti. È stata annunciata una partnership strategica con Google, e AUI ha in programma il rilascio generale di Apollo-1 per novembre 2025, con apertura delle API, rilascio della documentazione completa e funzionalità estese per voce e immagini. Fino ad allora, i dettagli restano riservati, e l’azienda sembra preparare “qualche annuncio” prossimo.

Di Fantasy