Immagine AI

Nel dinamico e spesso opaco mondo dell’Intelligenza Artificiale Generativa, la valutazione delle prestazioni dei Modelli Linguistici di Grandi Dimensioni (LLM) è sempre stata un terreno di scontro, affidata a benchmark standardizzati o a giudizi umani soggettivi. L’esperto di AI Andrej Karpathy, già figura chiave in OpenAI e Tesla, ha introdotto un approccio rivoluzionario per affrontare questa sfida, un progetto open-source denominato il “LLM Council” (Consiglio degli LLM). Questa iniziativa trasforma la consultazione dell’intelligenza artificiale da un monologo con un singolo modello a una vera e propria seduta parlamentare in cui i modelli rivali sono costretti a collaborare, a criticarsi reciprocamente e, sorprendentemente, a riconoscere i meriti dei propri concorrenti.

Il concetto alla base del LLM Council è tanto semplice quanto geniale: se l’intelligenza collettiva supera l’intelligenza individuale, perché non mettere a confronto e a collaborazione i modelli di punta sul mercato? Karpathy ha creato un’architettura che obbliga i modelli—tra cui pesi massimi come Gemini 3 Pro di Google, Claude Sonnet 4.5 di Anthropic, Grok di xAI e il potenziale GPT-5.1 di OpenAI—a operare in un processo di revisione tra pari strutturato in tre fasi distinte.

Inizialmente, l’interrogazione dell’utente viene inviata contemporaneamente a tutti i membri del Consiglio, ognuno dei quali formula la propria opinione iniziale in modo indipendente. Questa fase è cruciale per ottenere una gamma diversificata di risposte. Successivamente, le risposte vengono sottoposte a un processo di revisione anonima: ogni modello vede le risposte generate dagli altri (con le identità oscurate per prevenire bias di marca) e deve valutarle e classificarle in base a criteri di accuratezza, completezza e profondità di analisi. È in questo momento che il sistema evita il classico “bias dell’auto-promozione”, spingendo i modelli a giudicare l’output in base alla qualità oggettiva percepita. Infine, un modello designato come “Presidente” riassume l’intero dibattito, integrando tutte le risposte iniziali e tenendo conto delle classifiche di gradimento generate dal Consiglio per produrre una risposta finale sintetica e robusta.

L’aspetto più intrigante e discorsivo dell’esperimento risiede nei risultati emersi dalle prime sessioni di valutazione, in particolare in contesti che richiedono analisi approfondite, come la sintesi di contenuti di libri o la comprensione di testi complessi. In queste prove, il Consiglio degli LLM ha mostrato una tendenza sorprendente: i modelli, pur essendo rivali, si sono trovati costantemente d’accordo nel classificare GPT-5.1 come il modello più performante, quello che forniva le risposte più complete e ricche di insight.

Questo verdetto, espresso da un panel che include i concorrenti diretti di OpenAI—un fatto che Benioff stesso aveva osservato in una diversa conversazione—offre una nuova e potente metrica di valutazione. Non è un benchmark creato da ricercatori umani, ma un’autovalutazione complessa da parte delle stesse intelligenze artificiali. Il fatto che modelli come Gemini 3 Pro e Claude abbiano in più occasioni votato l’output di un rivale come migliore, dimostra il potenziale di questa metodologia nel trascendere la “fedeltà” del modello e nel convergere su un’idea di qualità. Al contempo, la piattaforma ha rilevato tendenze comportamentali: ad esempio, il modello Claude è stato spesso classificato più in basso perché le sue risposte erano ritenute “troppo concise” o sintetiche rispetto alla completezza preferita dagli altri membri del Consiglio.

Nonostante l’unanimità artificiale, Karpathy ha sollevato un’importante riserva che apre la discussione sulla direzione futura dell’AI. Egli ha notato che il consenso dei modelli (che favoriva il modello più verboso e dettagliato, ovvero GPT-5.1) non sempre si allineava con il suo giudizio soggettivo e le sue preferenze personali. A suo avviso, pur essendo il vincitore tecnicamente robusto, l’output di GPT-5.1 risultava talvolta “eccessivamente prolisso e divagante”. Al contrario, Karpathy trovava il modello Gemini 3 Pro più raffinato, condensato e capace di elaborare i concetti con maggiore concisione e chiarezza, pur non essendo stato il vincitore del voto del Consiglio.

Questa discrepanza è fondamentale. Essa suggerisce che i criteri che gli LLM usano per determinare la “migliore” risposta (come la completezza estrema e la copertura massima dell’argomento) potrebbero non corrispondere perfettamente alle esigenze umane di concisione, eleganza e focalizzazione. Il LLM Council diventa così non solo un metodo di valutazione, ma un affascinante laboratorio per studiare le differenze cognitive tra le AI e gli esseri umani.

Di Fantasy