Quando si tratta di ottimizzare sistemi complessi basati su LLM, il metodo tradizionale — il rinforzo tramite migliaia di tentativi basati su punteggi numerici — si rivela spesso troppo costoso, lento e poco pratico. Ma emergerà una via diversa: la riflessione intelligente. Ed è esattamente questa la promessa di GEPA, un approccio innovativo che cambia le regole del gioco.
Frutto del lavoro congiunto di ricercatori di UC Berkeley, Stanford e Databricks, GEPA (Genetic-Pareto) sostituisce il paradigma del trial-and-error basato su premi numerici con un meccanismo molto più ricco: il LLM stesso legge le tracce testuali dell’esecuzione (step di ragionamento, chiamate a tool, messaggi d’errore), riflette su ciò che è andato storto e genera prompt migliorati in linguaggio naturale. E lo fa usando fino a 35 volte meno tentativi rispetto al reinforcement learning tradizionale, risultando più accurato ed efficiente.
I tre fondamenti di GEPA sono evoluzione, riflessione e selezione intelligente:
- Evoluzione genetica dei prompt: GEPA mantiene una “popolazione” di prompt, la cui variabilità nasce da mutazioni iterative, alla ricerca di versioni più efficaci.
- Riflessione basata su feedback testuale: dopo alcuni tentativi, il sistema fornisce all’LLM l’esecuzione completa e l’esito — e chiede al modello di “riflettere” su come migliorare il prompt. Per esempio, un errore di compilazione può suggerire di specificare una versione di libreria mancante.
- Selezione Pareto per esplorare in modo intelligente: invece di puntare sempre al prompt con la performance media migliore, GEPA conserva diverse “specializzazioni” che funzionano meglio su sottoinsiemi di esempi. Questo evita il rischio di restare bloccati in soluzioni subottimali e favorisce generalizzazione.
In confronto a GRPO (una tecnica RL usata in modelli come DeepSeek‑R1) e a MIPROv2 (prompt optimizer all’avanguardia), GEPA ha dimostrato risultati netto e vantaggi concreti:
- Performance superiori fino al 19%, con fino a 35× meno rollouts.
- Un caso d’uso reale: ottimizzazione di un sistema QA in ~3 ore rispetto alle ~24 ore di RL, con il 20% in più di accuratezza; costo GPU: $20 invece di $300.
- Risultati migliori anche su dati nuovi (minor generalization gap), grazie alla comprensione più profonda insita nel feedback testuale.
- Prompts finali fino a 9.2 volte più corti, riducendo latenza e costi API.
GEPA non si limita alla fase iniziale: può diventare una strategia di “ricerca in tempo reale”, facendo evolvere il prompt mentre l’AI è in produzione. Immagina un sistema CI/CD che, a ogni commit di codice, genera prompt ottimizzati, li testa e invia in automatico una pull request con la versione migliore. In esperimenti su generazione di codice CUDA, così si è ottenuto un miglioramento fino a livello “expert” nel 20% dei casi, contro lo 0% di un approccio monoshot di GPT‑4.
Forse l’aspetto più trasformativo è l’apertura che GEPA offre ai non‑esperti di RL: chi ha conoscenza del dominio ma non vuole padroneggiare tecniche complesse ad alto costo può ottimizzare sistemi LLM in modo accessibile e potente.