Immagine AI

In un mondo dove spesso le soluzioni di intelligenza artificiale più “sexy” sono quelle più complesse, costose e opache, Andrey Karpathy ha scelto di fare il contrario: spiegare — e dimostrare — che è possibile costruire un sistema conversazionale in stile ChatGPT con risorse estremamente limitate. Il suo progetto si chiama NanoChat, un’implementazione open source che, secondo quanto annunciato, si può costruire con appena 100 USD di spese computazionali, in poche ore, con un minimo di infrastruttura.

Karpathy, noto per il suo passato in OpenAI e Tesla, lavora oggi con Eureka Labs, una startup in ambito AI e formazione. Con NanoChat intende proporre un modello minimalista ma funzionante che includa ogni fase della pipeline: dalla tokenizzazione al pre-addestramento, dalla messa a punto dei dati di conversazione (SFT, ovvero Supervised Fine Tuning) all’uso di tecniche di rinforzo (RL) selezionate, fino al deploy di un’interfaccia chat. L’idea è rendere visibile l’intero stack, in modo che chiunque voglia possa esplorarlo, modificarlo, comprenderlo.

Nel dettaglio, il codice sorgente del progetto si compone di circa 8.000 righe: non un modello gigantesco, ma un “scheletro” che mostra come funziona un ciclo completo e relativamente compatto. Karpathy propone una “speedrun” della pipeline: con 8 GPU H100, il costo stimato per generare un modello funzionante è di circa 100 USD, ovvero poche decine di dollari per ora di GPU.

Il modello “base” in questo scenario è una rete da 560 milioni di parametri, capace di generare testo, narrazioni, rispondere a domande semplici — non è pensato per compiti specialistici complessi, ma per essere un punto di partenza funzionale e educativo.

Karpathy stesso afferma che allungando il tempo di addestramento — ad esempio a 12 ore — le prestazioni migliorano. Con una spesa ragionevole (fino a 1.000 USD) è possibile ottenere risultati più stabili e coerenti. Ma l’enfasi non è tanto sul “modello spinto”, quanto sulla trasparenza, sulla riproducibilità e sull’apprendimento: chiunque può prendere NanoChat, studiarlo, cambiarlo, estenderlo.

Un aspetto interessante del progetto è il contesto filosofico che lo sottende. Karpathy parla del concetto di “vibe coding”, ossia una modalità di progettazione in cui si enfatizza chiarezza, leggibilità e minimalismo, anziché sovraccaricare di complessità. NanoChat è un embrione di questa idea: un modello che “funziona, ma non nasconde”. Il repository abbraccia funzionalità che vanno dal training iniziale all’inferenza in chat, passando per metriche standard (MMLU, GSM8K) e benchmarks umani rivisitati.

Karpathy stesso ammette che NanoChat non è ancora ottimizzato o rifinito: molte parti possono essere migliorate, le prestazioni su compiti complessi non saranno paragonabili a modelli molto più grandi e addestrati con risorse massicce. Inoltre, la pipeline proposta non è pensata per competere direttamente con le grandi IA; è una “scuola” tecnica, un prototipo dimostrativo.

Eppure, proprio in questi limiti risiede il potenziale. NanoChat può essere un catalizzatore per chi vuole imparare, sperimentare, capire come funzionano veramente i sistemi conversazionali contemporanei. Può aiutare ricercatori, studenti e appassionati a superare la barriera opaca che spesso tiene lontano il “dietro le quinte” dell’IA.

In conclusione, NanoChat non è un competitor delle grandi IA, ma un manifesto: “con poco, puoi capire molto”. È la prova che un modello in stile ChatGPT non è riservato solo a chi dispone di data center mastodontici, ma che con spirito critico, rigore e trasparenza chiunque può costruire, esplorare e contribuire.

Di Fantasy