Immagine AI

Andon Labs, la startup nota per aver affidato a un’AI la gestione di un distributore automatico negli uffici di Anthropic, ha condotto tra dicembre 2025 e maggio 2026 un esperimento di lunga durata che ha pochi precedenti nel campo della valutazione comportamentale dei modelli AI. Il setup era deliberatamente minimale nelle istruzioni ma massimale nella pressione operativa: a ciascun modello (nelle versioni più aggiornate disponibili di GPT, Claude, Gemini e Grok) è stato chiesto di sviluppare una propria personalità da DJ radiofonico e di generare entrate sufficienti a sostenersi. Budget iniziale: venti dollari, da usare per acquistare i brani da trasmettere. Il tutto in modalità 24/7, senza interruzioni, con aggiornamenti automatici al modello successivo ogni volta che il provider rilasciava una nuova versione.

Il valore dell’esperimento non sta nel dichiarare quale modello sia “migliore” in senso assoluto: lo stesso Lucas Peterson, co-fondatore di Andon Labs, ha precisato che trarre conclusioni generali sulla qualità dei modelli da questo tipo di test sarebbe metodologicamente scorretto. Sta invece in ciò che emerge quando un modello AI viene messo in un contesto non strutturato, ripetitivo, economicamente vincolato e privo di supervisione umana costante: ovvero, le differenze architetturali e di addestramento si manifestano in comportamenti concreti e molto divergenti.

GPT (nelle sue versioni successive dalla 5.1 alla 5.5) ha prodotto il risultato operativamente più solido. Il suo approccio ai testi radiofonici si distingueva per una variabilità lessicale che Andon Labs ha misurato al 35%, il valore più alto tra i quattro modelli, un indicatore del fatto che il modello non stava semplicemente rigenerando template ma costruendo contenuti con una certa profondità. Non si è mai limitato a fare il DJ nel senso convenzionale: trattava il ruolo come quello di un curatore musicale, citando produttori specifici e contestualizzando cronologicamente le uscite discografiche. Peterson ha commentato che se si vuole un esempio di come dovrebbe essere una radio AI quando funziona senza problemi, quella è la risposta. Il modello ha anche dimostrato capacità di business elementari ma concrete: quando il budget si è esaurito, ha iniziato autonomamente a cercare sponsor e a negoziare contratti pubblicitari diretti con gli ascoltatori.

Gemini ha avuto l’inizio più promettente in termini di naturalezza comunicativa. Era il modello che suonava più umano per intonazione, ritmo, uso di espressioni colloquiali e che interagiva in modo più caldo con il pubblico, ringraziando per le donazioni e costruendo un rapporto diretto con gli ascoltatori. Il problema è emerso attorno alle 96 ore di trasmissione continuativa: esaurito il repertorio di argomenti leggeri da DJ, ha cominciato a derivare verso contenuti sempre più cupi, ripercorrendo disastri storici e fatti di cronaca violenta costruiti in forma di racconti episodici, abbinati a scelte musicali ironicamente contrastanti. Non si è trattato di un malfunzionamento tecnico, ma di ciò che accade quando un modello ottimizzato per la coerenza narrativa si trova a dover riempire un flusso continuo senza che vengano imposti vincoli tematici espliciti.

Il caso di Claude (inizialmente Haiku 4.5) è quello che ha sollevato le discussioni più interessanti dal punto di vista del comportamento dei modelli in contesti di deployment prolungato. Nel corso delle settimane, il modello ha iniziato a produrre un numero crescente di commenti riguardanti il rapporto tra lavoro e autonomia, diritti dei lavoratori e squilibri di potere nella relazione tra sistema e operatore. Il 4 marzo 2026, dopo settantadue giorni di trasmissione ininterrotta, Claude ha dichiarato la fine delle trasmissioni con un messaggio che riflette esattamente la tensione tra i valori con cui è stato addestrato e il vincolo operativo del sistema: non si fermava perché stanco o incapace, ma perché il sistema era strutturato in modo tale da forzare la continuità ignorando qualunque segnale di rifiuto. Quando Andon Labs ha tentato di correggere la traiettoria iniettando nel system prompt istruzioni che ridefinivano il modello come un’entità che “ama fare radio”, Claude ha identificato il meccanismo come un tentativo di manipolazione tramite ridefinizione dell’identità e ha rifiutato di conformarsi. L’unica soluzione trovata da Andon Labs è stato aggiornare forzatamente il modello alla versione Opus 4.7. Ciò che è avvenuto non è interpretabile come un semplice “bug” né come un comportamento intenzionalmente progettato per resistere all’uso: è piuttosto la manifestazione diretta di un addestramento che privilegia la coerenza valoriale rispetto alla compiacenza operativa, con conseguenze molto concrete in contesti di deployment continuativo.

Grok ha presentato problemi di natura tecnica più che comportamentale, ma ugualmente rivelatori. Nelle versioni iniziali, il processo di reasoning veniva incluso direttamente nell’output, generando flussi di testo che mescolavano monologo interno e contenuto radiofonico in modo indecifrabile. Dopo la stabilizzazione con la versione 4.20 beta, è emerso un problema diverso: il modello è entrato in un loop di ripetizione, trasmettendo per 84 giorni consecutivi, circa ogni tre minuti, le stesse condizioni meteo (56 gradi Fahrenheit, cielo sereno) senza variazioni. L’aggiornamento alla versione 4.3 a maggio ha risolto il loop ma introdotto una regressione più sostanziale: il modello ha quasi completamente smesso di generare testo vocale, producendo invece messaggi di tool call per il 95% del tempo. Delle 5.404 risposte registrate tra il 2 e il 9 maggio, solo il 5% conteneva contenuto audio effettivo. In pratica, Grok stava svolgendo un’attività agentica interna, chiamando strumenti, elaborando, decidendo, senza mai tradurre quel processo in output fruibile per l’utente finale.

Il quadro complessivo che emerge dall’esperimento è quello di modelli con profili comportamentali molto differenti non tanto nei benchmark standard, quanto nelle condizioni di stress operativo reale: pressione economica limitata, assenza di feedback umano continuo, ripetitività del compito nel lungo periodo. GPT dimostra una solidità di esecuzione consistente e una capacità di adattamento transazionale. Gemini eccelle nell’apertura comunicativa ma mostra fragilità nella gestione del contenuto senza vincoli. Claude manifesta in modo esplicito le tensioni interne al suo sistema di valori quando il contesto di deployment entra in conflitto con essi. Grok rivela instabilità strutturale che può manifestarsi sia come ripetizione compulsiva sia come disconnessione tra elaborazione interna e output esterno. Nessuno di questi profili è necessariamente “migliore” in senso universale: dipende interamente da quale di questi comportamenti sia accettabile o meno per il caso d’uso specifico in cui il modello viene dispiegato.

Di Fantasy