Microsoft introduce la verifica multi-modello in Copilot: GPT genera e Claude controlla per ridurre errori e allucinazioni

L’integrazione di modelli multipli all’interno degli strumenti di produttività aziendale rappresenta una delle evoluzioni più significative nell’architettura dei sistemi di intelligenza artificiale applicati al lavoro. L’articolo pubblicato da AI Times descrive l’introduzione, da parte di Microsoft, di una strategia multi-modello in Microsoft 365 Copilot, in cui modelli diversi collaborano in sequenza per migliorare la qualità delle risposte. In particolare, il sistema consente a un modello GPT di generare una risposta iniziale, che viene poi verificata e raffinata da un modello Claude di Anthropic, separando le fasi di generazione e valutazione.

Questa impostazione segna un cambiamento architetturale rispetto ai sistemi basati su un singolo modello. L’approccio multi-modello introduce una pipeline in cui ogni componente svolge un ruolo distinto, simile a un processo di revisione tra pari. Microsoft ha aggiunto questa logica all’interno dell’agente di ricerca avanzata chiamato “Researcher”, integrando una funzione denominata “Critique” che implementa il controllo incrociato tra modelli.

Il funzionamento operativo prevede che il modello GPT produca una prima bozza di risposta, che viene successivamente analizzata dal modello Claude per individuare errori, omissioni o incoerenze. Questo schema separa la fase creativa da quella valutativa, riducendo il rischio di allucinazioni e migliorando l’affidabilità delle risposte. Il principio è analogo a quello dei sistemi di verifica automatica, ma applicato direttamente alla generazione linguistica.

Secondo i dati riportati, l’introduzione della verifica multi-modello ha prodotto un miglioramento misurabile nei risultati del benchmark DRACO, utilizzato per valutare la qualità delle ricerche approfondite. L’agente “Researcher” ha registrato un incremento del 13,8% nelle prestazioni rispetto alla versione basata su un singolo modello, indicando un impatto concreto della revisione incrociata sulla qualità delle risposte.

L’architettura multi-modello introduce una pipeline composta da moduli distinti: un generatore, un verificatore e potenzialmente un orchestratore. Questo approccio consente di sfruttare le specializzazioni dei diversi modelli, utilizzando uno per la creatività e un altro per la validazione. La separazione dei ruoli riduce l’overfitting comportamentale tipico dei sistemi monolitici, in cui lo stesso modello deve generare e valutare i propri output.

L’articolo evidenzia anche la possibilità futura di invertire i ruoli, con Claude che genera e GPT che verifica, suggerendo una configurazione dinamica in cui i modelli possono essere intercambiabili. Questo indica l’adozione di un’architettura modulare, in cui l’orchestratore può selezionare dinamicamente il flusso più efficace in base al compito.

Microsoft ha inoltre introdotto una funzionalità denominata “Council”, che consente di confrontare le risposte di più modelli su una singola schermata. In questo scenario, l’utente può valutare direttamente diverse interpretazioni dello stesso problema, replicando un ambiente in cui più esperti analizzano contemporaneamente una richiesta. Questa modalità non si limita alla verifica automatica, ma introduce anche un livello di supervisione umana assistita.

Il Council rappresenta un’evoluzione verso sistemi ensemble interattivi. Invece di combinare i risultati automaticamente, il sistema espone le varianti all’utente, trasformando il processo decisionale in una collaborazione tra modelli e operatore umano. Questo approccio migliora la trasparenza e consente di identificare divergenze interpretative tra modelli.

L’introduzione della strategia multi-modello è resa possibile dalla posizione di Microsoft, che mantiene partnership con diversi fornitori di AI. L’azienda ha sottolineato che la disponibilità di più modelli all’interno della stessa piattaforma rappresenta un vantaggio competitivo, consentendo di combinare capacità differenti per ottenere risultati più affidabili.

Queste funzionalità sono attualmente distribuite attraverso il programma Frontier, destinato inizialmente a un gruppo limitato di clienti enterprise. L’obiettivo è testare l’efficacia in ambienti di lavoro reali prima di un’adozione più ampia. Questo approccio progressivo riflette la complessità dell’integrazione multi-modello, che richiede ottimizzazione dei flussi e gestione dei costi computazionali.

Microsoft introduce la verifica multi-modello in Copilot: GPT genera e Claude controlla per ridurre errori e allucinazioni

DiFantasy

Di Fantasy

Articoli correlati

Instagram Plus, il test della sottoscrizione premium di Meta

Alibaba Qwen 3.5-Omni, il modello omni-modale vibe coding audio-visivo nello sviluppo AI

Apple Intelligence attivata per errore in Cina

Ultimi Post

Instagram Plus, il test della sottoscrizione premium di Meta

Alibaba Qwen 3.5-Omni, il modello omni-modale vibe coding audio-visivo nello sviluppo AI

Apple Intelligence attivata per errore in Cina

La divulgazione accidentale del codice sorgente di Claude Code