Nel panorama in continua evoluzione dell’intelligenza artificiale, la capacità dei modelli di rispondere in modo efficiente e tempestivo è fondamentale. Tradizionalmente, i modelli di linguaggio di grandi dimensioni (LLM) affrontano ogni richiesta con un approccio uniforme, dedicando lo stesso tempo e risorse a domande semplici e complesse. Tuttavia, questa strategia può risultare inefficiente, soprattutto quando si tratta di domande che richiedono risposte rapide.

Meta, in collaborazione con l’Università dell’Illinois a Chicago, ha sviluppato una tecnica innovativa per ottimizzare l’elaborazione delle richieste AI. Questa metodologia insegna ai modelli a riconoscere la difficoltà di una domanda e ad allocare le risorse computazionali di conseguenza, garantendo risposte più rapide e un utilizzo più efficiente delle risorse.

I modelli di linguaggio di grandi dimensioni possono migliorare le loro prestazioni su problemi di ragionamento quando producono catene di pensiero più lunghe, note come “chain-of-thought” (CoT). Il successo di CoT ha portato a una serie di tecniche di scaling in tempo di inferenza che spingono il modello a “pensare” più a lungo sul problema, produrre e rivedere più risposte e scegliere la migliore. Una delle principali modalità utilizzate nei modelli di ragionamento è generare più risposte e scegliere quella che appare più frequentemente, nota anche come “majority voting” (MV). Il problema di questo approccio è che il modello adotta un comportamento uniforme, trattando ogni richiesta come un problema di ragionamento difficile e spendendo risorse inutili per generare più risposte.

La nuova tecnica proposta da Meta introduce una serie di metodi di addestramento per rendere i modelli di ragionamento più efficienti nelle risposte. Il primo passo è il “sequential voting” (SV), in cui il modello interrompe il processo di ragionamento non appena una risposta appare un certo numero di volte. Ad esempio, il modello è istruito a generare un massimo di otto risposte e scegliere quella che appare almeno tre volte. Se il modello riceve una semplice domanda come “Che cos’è 1+1?”, le prime tre risposte saranno probabilmente simili, il che attiverà l’interruzione anticipata, risparmiando tempo e risorse computazionali. Gli esperimenti hanno dimostrato che SV supera il classico MV nei problemi di competizione matematica quando genera lo stesso numero di risposte. Tuttavia, SV richiede istruzioni aggiuntive e la generazione di token, il che lo rende paragonabile a MV in termini di rapporto token-accuratezza.

La seconda tecnica, “adaptive sequential voting” (ASV), migliora SV istruendo il modello a esaminare il problema e generare più risposte solo quando il problema è difficile. Per problemi semplici, il modello genera semplicemente una singola risposta senza passare attraverso il processo di votazione. Questo rende il modello molto più efficiente nel gestire sia problemi semplici che complessi.

Sebbene sia SV che ASV migliorino l’efficienza del modello, richiedono una grande quantità di dati etichettati manualmente. Per alleviare questo problema, i ricercatori propongono l'”Inference Budget-Constrained Policy Optimization” (IBPO), un algoritmo di apprendimento per rinforzo che insegna al modello ad adattare la lunghezza delle tracce di ragionamento in base alla difficoltà della richiesta. IBPO è progettato per consentire ai LLM di ottimizzare le loro risposte rimanendo all’interno di un vincolo di budget di inferenza. L’algoritmo di apprendimento per rinforzo consente al modello di superare i guadagni ottenuti attraverso l’addestramento su dati etichettati manualmente, generando costantemente tracce ASV, valutando le risposte e scegliendo risultati che forniscono la risposta corretta e il budget di inferenza ottimale. Gli esperimenti hanno mostrato che IBPO migliora il fronte di Pareto, il che significa che per un budget di inferenza fisso, un modello addestrato su IBPO supera altri baseline.

L’approccio innovativo di Meta nell’addestrare i modelli a riconoscere la difficoltà delle richieste e ad allocare le risorse computazionali di conseguenza rappresenta un passo significativo verso un’intelligenza artificiale più efficiente e reattiva. Questa metodologia non solo migliora la velocità delle risposte, ma ottimizza anche l’utilizzo delle risorse, riducendo i costi e aumentando l’efficacia complessiva dei sistemi AI. Con l’evoluzione continua dell’AI, approcci come quello di Meta sono fondamentali per affrontare le sfide future e per garantire che l’intelligenza artificiale possa rispondere in modo adeguato e tempestivo alle esigenze degli utenti.

Di Fantasy