Hugging Face ha recentemente dimostrato come i modelli linguistici di piccole dimensioni possano superare le prestazioni di modelli molto più grandi attraverso l’uso del “test-time scaling”. In particolare, un modello Llama 3 con 3 miliardi di parametri è riuscito a superare la versione da 70 miliardi in problemi matematici complessi.
Il “test-time scaling” implica l’utilizzo di maggiori risorse computazionali durante l’inferenza, permettendo al modello di esplorare diverse soluzioni e percorsi di ragionamento prima di fornire la risposta finale. Questo approccio è particolarmente utile quando la memoria disponibile non è sufficiente per eseguire modelli di grandi dimensioni. Ispirandosi al modello o1 di OpenAI, che utilizza un “extra thinking” per risolvere problemi complessi, Hugging Face ha sviluppato tecniche che bilanciano il calcolo tra fase di addestramento e inferenza per ottenere risultati ottimali con budget computazionali fissi.
Un elemento chiave di questa metodologia è l’implementazione di un modello di ricompensa che valuta le risposte generate dal modello linguistico, insieme a un algoritmo di ricerca che ottimizza il percorso per affinare tali risposte. Tra le tecniche di ragionamento utilizzate vi sono il “majority voting”, in cui il modello genera più risposte e si sceglie quella più votata, e il “Best-of-N”, dove un modello di ricompensa seleziona la migliore tra le risposte generate. Queste strategie consentono ai modelli più piccoli di affrontare con successo compiti di ragionamento complessi, riducendo al contempo i costi computazionali e l’impatto ambientale associato all’addestramento di modelli di grandi dimensioni.
Hugging Face ha documentato dettagliatamente questo processo, fornendo una guida per le aziende interessate a sviluppare modelli di ragionamento personalizzati ed efficienti. Questa ricerca rappresenta un passo significativo verso la democratizzazione dell’intelligenza artificiale, rendendo le tecnologie avanzate più accessibili e sostenibili.