Immagine AI

Google ha recentemente introdotto una funzionalità innovativa nel suo modello Gemini 2.5 Flash: il “thinking budget”. Questa novità consente agli sviluppatori di controllare la quantità di “pensiero” computazionale che l’AI dedica a ciascun compito, offrendo un equilibrio tra qualità, costi e velocità di risposta.​

Il “thinking budget” è uno strumento che permette agli sviluppatori di specificare quanta potenza computazionale deve essere allocata per il ragionamento su problemi complessi prima che l’AI generi una risposta. Questa funzionalità affronta una delle sfide fondamentali nel mercato odierno dell’AI: il ragionamento più sofisticato comporta generalmente maggiore latenza e costi più elevati.​

Con il “thinking budget”, gli sviluppatori possono regolare la profondità del ragionamento in base alle esigenze specifiche del compito, ottimizzando così l’efficienza e i costi operativi.​

L’introduzione del “thinking budget” ha anche un impatto significativo sulla struttura dei costi. Ad esempio, con il “thinking” disattivato, il costo per output è di $0,60 per milione di token; con il “thinking” attivato, il costo sale a $3,50 per milione di token. Questa differenza di prezzo evidenzia l’intensità computazionale del processo di ragionamento, in cui il modello valuta più percorsi e considerazioni prima di generare una risposta.​

Inoltre, il “thinking budget” può essere regolato da 0 a 24.576 token, operando come un limite massimo piuttosto che un’allocazione fissa. Secondo Google, il modello determina in modo intelligente quanto di questo budget utilizzare in base alla complessità del compito, preservando le risorse quando un ragionamento elaborato non è necessario.

Di Fantasy