DeepMind e l’ottimizzazione AI con OPRO e Linguaggio Naturale

Nel campo dello sviluppo dei nuovi modelli di intelligenza artificiale basati sul deep learning, che sono in grado di concentrarsi autonomamente sulle caratteristiche rilevanti dei dati, la stragrande maggioranza dei ricercatori fa affidamento sugli algoritmi di ottimizzazione, noti come “ottimizzatori”, per assicurarsi che i modelli raggiungano un livello di precisione adeguato. Tuttavia, uno dei tipi di ottimizzatori più comunemente usati, cioè quelli basati su derivati, presenta alcune sfide quando si tratta di applicazioni reali.

In un nuovo articolo, i ricercatori di DeepMind propongono un approccio innovativo chiamato “Optimization by PROmpting” (OPRO), che sfrutta i modelli AI basati su linguaggio naturale di grandi dimensioni (Large Language Models o LLM) come ottimizzatori. La peculiarità di questo approccio è che il problema di ottimizzazione viene definito in linguaggio naturale invece di essere espresso attraverso definizioni matematiche formali.

I ricercatori spiegano: “Invece di formalizzare il problema di ottimizzazione e derivare un algoritmo di aggiornamento tramite un risolutore programmato, descriviamo il problema di ottimizzazione usando il linguaggio naturale e quindi istruiamo il LLM a generare iterativamente nuove soluzioni basate sulla descrizione del problema e sulle soluzioni precedentemente trovate”.

Questa tecnica è altamente flessibile. Modificando la descrizione del problema o aggiungendo istruzioni specifiche, è possibile guidare il LLM a risolvere una vasta gamma di problemi.

I ricercatori hanno scoperto che, in piccoli problemi di ottimizzazione, i LLM possono generare soluzioni efficaci con l’assistenza, talvolta raggiungendo o superando le prestazioni degli algoritmi euristici sviluppati da esperti. Tuttavia, il vero potenziale di OPRO risiede nella capacità di ottimizzare i prompt dati ai LLM per ottenere la massima precisione dai modelli.

Il processo di OPRO inizia con un “meta-prompt” come input. Questo meta-prompt contiene una descrizione in linguaggio naturale del compito da eseguire, insieme a esempi di problemi, segnaposto per istruzioni rapide e soluzioni corrispondenti.

Mentre il processo di ottimizzazione procede, il grande modello di linguaggio (LLM) genera soluzioni candidate basate sulla descrizione del problema e sulle soluzioni precedenti presenti nel meta-prompt.

OPRO valuta queste soluzioni candidate assegnando loro un punteggio di qualità. Le soluzioni ottimali e i relativi punteggi vengono quindi aggiunti al meta-prompt, arricchendo il contesto per il ciclo successivo di generazione delle soluzioni. Questo processo iterativo continua finché il modello smette di proporre soluzioni migliori.

“Il principale vantaggio dei LLM nell’ottimizzazione risiede nella loro capacità di comprendere il linguaggio naturale, permettendo alle persone di descrivere i loro compiti di ottimizzazione senza bisogno di definizioni formali”, affermano i ricercatori.

Ciò significa che gli utenti possono specificare metriche obiettivo come la “precisione” fornendo anche altre istruzioni. Per esempio, possono richiedere al modello di generare soluzioni che siano concise e al contempo ampiamente applicabili.

OPRO sfrutta anche la capacità dei LLM di riconoscere modelli nel contesto, consentendo al modello di identificare una traiettoria di ottimizzazione basata sugli esempi inclusi nel meta-prompt. I ricercatori notano: “L’inclusione della traiettoria di ottimizzazione nel meta-prompt consente al LLM di identificare somiglianze tra le soluzioni ad alte prestazioni, spingendo il modello a basarsi su soluzioni esistenti di alta qualità per cercare di migliorarle ulteriormente, senza la necessità di definire esplicitamente come dovrebbe essere l’aggiornamento della soluzione”.

Per validare l’efficacia di OPRO, i ricercatori lo hanno testato su due noti problemi di ottimizzazione matematica: la regressione lineare e il “problema del commesso viaggiatore”. Anche se OPRO potrebbe non essere la soluzione ottimale per questi problemi, i risultati ottenuti sono stati promettenti.

“In entrambe le attività, vediamo che i LLM identificano correttamente le direzioni di ottimizzazione in problemi su piccola scala semplicemente basandosi sulla traiettoria di ottimizzazione fornita nel meta-prompt”, riportano i ricercatori.

Gli esperimenti dimostrano come la progettazione accurata dei prompt possa influenzare notevolmente l’output di un modello. Aggiungendo, ad esempio, la frase “pensiamo passo dopo passo” a un prompt, è possibile indurre il modello a seguire un ragionamento più dettagliato, che spesso porta a risultati più accurati.

Tuttavia, è importante sottolineare che ciò non implica che i LLM abbiano capacità di ragionamento simili a quelle umane. Le loro risposte dipendono fortemente dal formato del prompt, e prompt semanticamente simili possono produrre risultati molto diversi. I ricercatori di DeepMind affermano: “I formati ottimali dei prompt possono variare a seconda del modello e del compito”.

Il vero potenziale dell’ottimizzazione tramite PROmpting risiede nella sua capacità di ottimizzare i prompt per modelli come ChatGPT di OpenAI e PaLM di Google, guidandoli nella ricerca del prompt migliore per massimizzare la precisione nel compito assegnato.

“OPRO consente al LLM di generare gradualmente nuovi prompt che migliorano la precisione del compito durante l’intero processo di ottimizzazione, anche quando i prompt iniziali hanno una bassa precisione”, concludono i ricercatori.

In sintesi, OPRO rappresenta un approccio innovativo all’ottimizzazione basata su linguaggio naturale che ha il potenziale per migliorare notevolmente le prestazioni dei modelli LLM, come ChatGPT e PaLM. Tuttavia, sarà interessante vedere come questa tecnica si tradurrà nelle applicazioni reali, poiché può rappresentare un passo avanti significativo nella comprensione del funzionamento interno dei LLM.

DeepMind e l’ottimizzazione AI con OPRO e Linguaggio Naturale

DiFantasy

Di Fantasy

Articoli correlati

NVIDIA presenta ENPIRE, un sistema in cui i robot apprendono autonomamente nuovi compiti attraverso esperimenti nel mondo reale

Anthropic analizza 400.000 sessioni di Claude Code e scopre che la competenza nella professione conta più della capacità di programmare

HappyScribe trasforma audio e video in trascrizioni, sottotitoli e contenuti multilingua con AI e revisione umana

Ultimi Post

NVIDIA presenta ENPIRE, un sistema in cui i robot apprendono autonomamente nuovi compiti attraverso esperimenti nel mondo reale

Anthropic analizza 400.000 sessioni di Claude Code e scopre che la competenza nella professione conta più della capacità di programmare

HappyScribe trasforma audio e video in trascrizioni, sottotitoli e contenuti multilingua con AI e revisione umana

OpenAI introduce Deployment Simulation per prevedere i rischi dei modelli AI prima del rilascio