Nel settore dell’informatica ad alte prestazioni esiste una sfida silenziosa ma fondamentale: rendere i chip grafici, le GPU, il più efficienti possibile attraverso la scrittura di piccoli programmi chiamati “kernel”. Fino ad oggi, questa è stata considerata una forma d’arte oscura, riservata a un’élite di ingegneri umani capaci di spremere ogni ciclo di calcolo dal silicio. Tuttavia, una ricerca congiunta tra Stanford, Nvidia e Together AI ha segnato un punto di svolta, dimostrando che una nuova tecnica chiamata TTT-Discover è in grado di creare codici per GPU due volte più veloci rispetto a quelli scritti dai migliori esperti mondiali.
Il segreto di questa accelerazione non risiede in un modello più grande o in un database più vasto, ma in un cambiamento radicale di filosofia. Solitamente, un modello linguistico è come uno studente che ha terminato gli studi e deve affrontare il mondo con ciò che ha imparato. Una volta addestrato, il modello è “congelato”: risponde alle domande basandosi solo sulla sua memoria statica. Al contrario, TTT-Discover introduce il concetto di “Test-Time Training”, ovvero l’addestramento durante l’esecuzione stessa del compito. È come se lo studente, durante l’esame, potesse continuare a studiare e fare esperimenti basandosi sui propri errori, aggiornando le proprie conoscenze in tempo reale per risolvere quel singolo problema specifico.
Questa capacità di apprendimento adattativo permette all’intelligenza artificiale di esplorare soluzioni che la mente umana fatica a concepire. In un test emblematico che ha coinvolto l’ottimizzazione del kernel “TriMul” – un elemento cruciale per modelli come AlphaFold di Google DeepMind – il sistema ha ridotto drasticamente la latenza di esecuzione. Mentre il record umano su schede A100 si attestava intorno ai 4500 microsecondi, l’intelligenza artificiale è riuscita a scendere fino a circa 2200 microsecondi. Il risultato non è solo una versione più pulita del codice umano, ma una struttura radicalmente diversa: una costruzione asimmetrica e complessa che ottimizza il passaggio dei dati nella memoria del chip in modi che sfidano l’intuizione tradizionale dei programmatori.
Il meccanismo tecnico che abilita tale scoperta si basa su un obiettivo “entropico”. A differenza dei classici sistemi di apprendimento per rinforzo, che spesso cercano di massimizzare il risultato medio, TTT-Discover è progettato per dare un peso enorme ai successi straordinari, anche se rari. Questo incoraggia il modello a correre rischi calcolati, esplorando percorsi di codice non convenzionali che potrebbero fallire nove volte su dieci, ma che alla decima portano a una scoperta da record mondiale. È una forma di creatività computazionale guidata dal rigore matematico e dal feedback immediato dell’hardware.
Le implicazioni economiche e operative di questa tecnologia sono enormi. L’ottimizzazione dei kernel GPU non è solo un esercizio accademico, ma la base su cui poggia l’intera infrastruttura del cloud e dell’IA moderna. Ridurre i tempi di calcolo del 50% significa raddoppiare l’efficienza dei data center, abbattere i costi energetici e velocizzare l’addestramento di futuri modelli linguistici o simulazioni scientifiche. Inoltre, poiché questo metodo può essere applicato utilizzando modelli a pesi aperti, le aziende possono implementare il processo di scoperta all’interno dei propri server sicuri, senza dover condividere dati proprietari con fornitori esterni.
