Meta ha introdotto un framework sperimentale denominato MLGym, accompagnato dal benchmark MLGym-Bench. Questo sviluppo mira a potenziare gli agenti di ricerca IA, facilitando l’addestramento e la valutazione su una varietà di compiti complessi.
MLGym si presenta come il primo ambiente Gym dedicato al machine learning, progettato per promuovere la ricerca su algoritmi di reinforcement learning applicati ad agenti di ricerca IA. Il suo complemento, MLGym-Bench, comprende 13 compiti di ricerca IA diversificati, spaziando tra domini come la visione artificiale, l’elaborazione del linguaggio naturale, il reinforcement learning e la teoria dei giochi. Questi compiti richiedono competenze reali di ricerca IA, tra cui la generazione di nuove ipotesi, la creazione e l’elaborazione di dati, l’implementazione di metodi di machine learning, l’addestramento di modelli, l’esecuzione di esperimenti e l’analisi dei risultati.
L’obiettivo principale di MLGym è fornire una piattaforma modulare ed estensibile che consenta ai ricercatori di aggiungere facilmente nuovi compiti, dataset e strumenti. Il framework offre anche un “agentic harness” predefinito, utilizzabile per valutare qualsiasi modello di base. Attraverso questo approccio, Meta intende promuovere lo sviluppo di agenti IA in grado di generare autonomamente ipotesi scientifiche, redigere articoli accademici e analizzare risultati, avvicinandosi sempre più a un’intelligenza artificiale con capacità di ricerca avanzate.
Nel contesto di MLGym-Bench, il team di ricerca di Meta ha valutato diversi modelli di linguaggio di grandi dimensioni (LLM), tra cui Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. I risultati indicano che, sebbene i modelli all’avanguardia possano migliorare rispetto ai baseline esistenti, spesso lo fanno ottimizzando iperparametri piuttosto che generando nuove ipotesi o algoritmi. In particolare, Gemini-1.5 Pro è emerso come l’opzione più efficiente in termini di costi nel contesto della ricerca.
Aprendo il codice sorgente di MLGym e MLGym-Bench, Meta spera di facilitare ulteriori ricerche e avanzare le capacità degli agenti IA nel campo della ricerca. Questa iniziativa rappresenta un passo significativo verso la standardizzazione dei metodi di valutazione e confronto degli agenti di ricerca IA, promuovendo la collaborazione e l’innovazione nella comunità scientifica.