Google ha appena compiuto un passo significativo nella sua evoluzione degli strumenti per sviluppatori di intelligenza artificiale con il lancio in public beta della sua Interactions API, una nuova interfaccia pensata per supportare applicazioni avanzate basate su modelli generativi come Gemini. Questo annuncio, del dicembre 2025, segna un cambiamento di paradigma nel modo in cui gli sviluppatori possono costruire e gestire agenti autonomi e flussi di lavoro complessi in applicazioni AI, superando molte delle limitazioni strutturali delle API precedenti.
Per anni, nel mondo dell’IA generativa, il modello di interazione dominante è stato quello delle “completion”: si invia una richiesta a un modello, si riceve un testo generato e la transazione si chiude. Per mantenere una conversazione o gestire un contesto più lungo, il codice dell’applicazione doveva reinviare tutta la cronologia delle interazioni insieme a ogni nuova richiesta. Questo approccio stateless, incarnato dall’endpoint legacy generateContent, era semplice e adatto per chatbot di base, ma si è rivelato un collo di bottiglia non sostenibile per sviluppare agenti intelligenti, capaci di mantenere contesti complessi, utilizzare strumenti esterni e “ragionare” su sequenze di operazioni articolate.
La Interactions API rappresenta proprio la risposta a questo problema: introduce un modello con stato lato server come comportamento predefinito, eliminando l’onere per lo sviluppatore di dover gestire manualmente la crescente quantità di dati di contesto. Con questa API, invece di rinviare ogni volta l’intera cronologia, è sufficiente passare un identificativo di interazione (previous_interaction_id) e lasciare che l’infrastruttura di Google mantenga al sicuro e gestisca la storia delle conversazioni, gli output degli strumenti e i processi di pensiero generati dai modelli.
Questa novità non è solo un miglioramento tecnico incrementale, ma un vero e proprio cambio di prospettiva: gli LLM smettono di essere semplici generatori di testo e diventano sistemi remoti capaci di operare su più livelli di complessità. Ad esempio, la Interactions API supporta l’esecuzione in background di compiti lunghi e articolati, come la navigazione web continuativa per sintetizzare un rapporto dettagliato, superando i limiti di timeout tipici delle chiamate API standard. Gli sviluppatori possono così attivare un agente con il parametro background=true, scollegarsi e poi recuperare i risultati quando sono pronti, rendendo molto più fluide e robuste le applicazioni con agenti autonomi.
Un’altra innovazione portata dalla nuova API è l’integrazione con agenti avanzati come Gemini Deep Research, accessibile attraverso lo stesso endpoint /interactions. Questo agente è progettato per compiti di ricerca a lungo raggio, combinando ricerche, lettura e sintesi in loop iterativi che vanno ben oltre la semplice generazione di testo in risposta a un prompt. Per la prima volta, gli sviluppatori possono incorporare queste capacità di agenti sofisticati direttamente nelle loro applicazioni, offrendo funzionalità che prima richiedevano implementazioni esterne complesse o molteplici API da orchestrare.
Un elemento altrettanto importante, soprattutto per chi costruisce sistemi complessi, è la scelta di Google di mantenere la cronologia completa delle interazioni accessibile e componibile. A differenza della soluzione di compressione adottata da alcuni concorrenti, che riducono lo storico a elementi crittografati per motivi di efficienza a scapito della trasparenza, la Interactions API permette di “vedere”, manipolare e ragionare su ogni messaggio e output intermediario. Questo aumenta notevolmente l’ispezionabilità e il controllo sugli agenti sviluppati, facilitando debugging, audit e sviluppo di logiche avanzate di comportamento.
Al momento, l’API è accessibile tramite Google AI Studio e supporta la maggior parte dei modelli di generazione di testo di Google, inclusi i più recenti modelli Gemini, sia nelle versioni base sia in quella Pro. È possibile anche sfruttare l’interfaccia per agenti specifici come Deep Research, garantendo flessibilità agli sviluppatori per scegliere il livello di complessità e autonomia che desiderano integrare nelle loro applicazioni.