Dietro le dimostrazioni spettacolari e i progressi rapidi delle capacità dei modelli linguistici, emerge una sfida tecnica meno visibile ma cruciale: la affidabilità operativa dei sistemi di AI. Un concetto recentemente discusso nel settore tecnologico è quello del cosiddetto “March of Nines”, un principio illustrato dall’ingegnere e ricercatore Andrej Karpathy per spiegare perché una precisione del 90 % nei sistemi di intelligenza artificiale sia molto lontana dagli standard richiesti per applicazioni reali e mission-critical.
Il concetto deriva dalla tradizione dell’ingegneria dell’affidabilità, in cui la qualità di un sistema viene spesso espressa in termini di “nove” percentuali di disponibilità o precisione. Un sistema che funziona correttamente il 90 % del tempo possiede un solo “nove”, mentre un sistema con affidabilità del 99 % possiede due “nove”, uno con 99,9 % tre “nove” e così via. In molti settori tecnologici avanzati, come infrastrutture informatiche, sistemi aeronautici o servizi cloud, la qualità minima richiesta supera spesso il livello di 99,99 % di affidabilità. Questa classificazione riflette una realtà matematica: anche piccole differenze percentuali possono tradursi in grandi differenze operative quando i sistemi devono funzionare continuamente.
Karpathy utilizza questo modello per descrivere la difficoltà di trasformare una dimostrazione convincente di intelligenza artificiale in un prodotto realmente utilizzabile su larga scala. Secondo questa interpretazione, ottenere il primo livello di affidabilità, intorno al 90 %, è relativamente semplice perché i modelli riescono a gestire la maggior parte dei casi tipici. Il problema emerge quando si tenta di eliminare gli errori residui. Ogni incremento di precisione richiede uno sforzo ingegneristico paragonabile a quello necessario per ottenere il livello precedente, rendendo il progresso sempre più lento e costoso.
Il fenomeno è particolarmente evidente nei sistemi di intelligenza artificiale che operano attraverso pipeline multi-fase o agenti software autonomi. Un flusso operativo tipico di un sistema AI aziendale può includere diverse fasi successive, come interpretazione della richiesta dell’utente, recupero di informazioni da database, pianificazione delle azioni, esecuzione di strumenti esterni, validazione dei risultati e generazione del formato finale della risposta. Quando un processo è composto da molte fasi, la probabilità di successo complessivo dipende dal prodotto delle probabilità di successo di ogni singola fase.
Questo effetto matematico produce un risultato sorprendente. Se ogni fase di un processo ha una probabilità di successo del 90 %, un flusso composto da dieci passaggi non avrà una probabilità di successo del 90 %, ma soltanto di circa il 35 %. In altre parole, la maggior parte delle operazioni fallirà prima di completarsi. Anche aumentando l’affidabilità di ogni fase al 99 %, il successo complessivo di un flusso a dieci passaggi rimane inferiore al 91 %. Questo significa che in contesti operativi reali gli errori possono verificarsi con una frequenza ancora troppo elevata per molti utilizzi critici.
Questa dinamica è uno dei motivi per cui molte applicazioni di intelligenza artificiale appaiono impressionanti nelle dimostrazioni ma risultano difficili da trasformare in prodotti affidabili. Nei test controllati i modelli affrontano input relativamente prevedibili e un numero limitato di scenari. Nel mondo reale, invece, gli utenti introducono variabilità, errori di input, richieste ambigue o dati incompleti che amplificano le probabilità di fallimento del sistema. Questo fenomeno viene spesso descritto come il “demo-to-product gap”, cioè la distanza tra una dimostrazione funzionante e un sistema realmente affidabile in produzione.
L’esperienza di Karpathy nel settore delle auto autonome ha contribuito a formulare questo modello concettuale. Nei primi anni di sviluppo della guida autonoma, molte dimostrazioni mostravano veicoli capaci di percorrere intere strade senza intervento umano. Tuttavia, portare quella tecnologia a livelli di sicurezza accettabili per l’utilizzo quotidiano si è rivelato molto più complesso. La maggior parte degli incidenti o dei problemi non deriva dai casi comuni, ma dalla cosiddetta “long tail” di situazioni rare, cioè eventi insoliti che il sistema incontra solo occasionalmente ma che richiedono comunque una gestione corretta.
Una situazione simile si sta verificando oggi con gli agenti di intelligenza artificiale e con i modelli linguistici utilizzati nei servizi digitali. Questi sistemi sono estremamente efficaci nel gestire attività generali come la scrittura di testo, la sintesi di informazioni o la generazione di codice. Tuttavia, quando vengono integrati in processi aziendali automatizzati, anche piccoli errori possono avere conseguenze rilevanti, come modifiche involontarie di database, esposizione di informazioni sensibili o interruzioni dei flussi operativi.
Per affrontare questa sfida, molte organizzazioni stanno sviluppando architetture più robuste per i sistemi di AI. Tra le tecniche più utilizzate vi sono sistemi di validazione automatica dei risultati, modelli multipli che verificano reciprocamente le risposte, meccanismi di supervisione umana e pipeline di test simili a quelle utilizzate nello sviluppo software tradizionale. L’obiettivo è ridurre progressivamente il numero di errori e avvicinarsi ai livelli di affidabilità richiesti per l’adozione su larga scala.
Il concetto del “March of Nines” suggerisce quindi che il vero progresso dell’intelligenza artificiale nei prossimi anni potrebbe non dipendere esclusivamente dalla creazione di modelli più grandi o più intelligenti, ma dalla capacità di costruire sistemi più prevedibili, controllabili e resilienti agli errori. La sfida principale non consiste nel far funzionare un sistema una volta, ma nel garantire che funzioni correttamente quasi sempre.
