xAI ha reso disponibile in beta Voice Agent Builder, una piattaforma no-code progettata per creare e gestire agenti vocali basati su Grok Voice senza dover assemblare separatamente servizi di riconoscimento vocale, modelli linguistici, sintesi audio e infrastruttura telefonica. Il sistema adotta un’architettura speech-to-speech, in cui l’input vocale viene elaborato e trasformato direttamente in una risposta parlata, riducendo i passaggi tra componenti distinti e semplificando la costruzione di assistenti per chiamate, supporto clienti e processi operativi.
L’impostazione punta soprattutto ai casi d’uso in cui una conversazione telefonica deve gestire rumore di fondo, qualità audio non costante, accenti diversi, interruzioni dell’utente e cambi improvvisi di argomento. In questo contesto l’agente non deve limitarsi a trascrivere una frase e restituire una risposta standard, ma deve mantenere il filo della conversazione, interpretare richieste parziali o ambigue e decidere quando usare strumenti esterni oppure trasferire la chiamata a un operatore umano.
La definizione dell’agente avviene attraverso prompt e documenti caricati dall’utente. File di testo, documenti Word, presentazioni, fogli Excel, contenuti HTML e dati JSON possono essere trasformati in una base di conoscenza interrogabile durante la chiamata. L’agente può quindi recuperare informazioni su prodotti, procedure, policy aziendali, disponibilità o pratiche aperte, utilizzandole per formulare risposte contestuali senza richiedere la scrittura manuale di flussi conversazionali rigidi.
Voice Agent Builder supporta anche l’integrazione con strumenti esterni. Gli agenti possono consultare calendari Google e Outlook per fissare appuntamenti, richiamare API per verificare ordini o avviare rimborsi, usare ricerca web e ricerca su X, aprire o aggiornare ticket tramite Linear e Notion e recuperare documenti da Google Drive o OneDrive. Questo amplia il ruolo dell’assistente vocale: non solo risponde alle domande, ma può eseguire azioni legate ai processi aziendali.
Per la parte telefonica, la piattaforma include numeri gratuiti assegnati agli account, collegamento a numerazioni esistenti tramite SIP e test da browser. Sono disponibili più di ottanta voci preimpostate e una funzione di clonazione vocale che consente di creare una voce personalizzata a partire da circa due minuti di registrazione. Le chiamate vengono registrate e trascritte automaticamente, mentre il pannello di controllo permette di verificare le conversazioni, gli strumenti attivati dall’AI e le azioni eseguite nel corso dell’interazione.
xAI ha inserito anche guardrail pensati per limitare comportamenti indesiderati. L’agente può essere istruito a non acquisire dati sensibili come numeri di carta di credito, a non uscire dall’ambito operativo assegnato e a passare il controllo a un addetto umano quando la richiesta richiede valutazioni non automatizzabili. Il costo indicato è di 0,05 dollari al minuto per l’elaborazione vocale, con un ulteriore costo di 0,01 dollari al minuto quando viene utilizzato il numero telefonico fornito dalla piattaforma.
La novità evidenzia l’evoluzione degli agenti vocali da semplici sistemi IVR o chatbot telefonici a strumenti in grado di combinare conversazione naturale, accesso a basi di conoscenza, automazione e collegamento diretto ai software aziendali. La qualità effettiva dipenderà dalla capacità di mantenere bassa la latenza, riconoscere correttamente il parlato in condizioni reali e gestire con affidabilità le azioni che l’agente può compiere durante una chiamata.
