I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato numerosi settori, incluso quello dello sviluppo software. Tuttavia, un recente studio condotto da OpenAI ha messo in luce le attuali limitazioni di questi modelli nell’ambito dell’ingegneria del software, evidenziando che, sebbene possano correggere bug esistenti, faticano a individuarli autonomamente.

La ricerca, dettagliata in un nuovo documento, ha introdotto un benchmark denominato SWE-Lancer, progettato per valutare le capacità dei modelli di intelligenza artificiale nell’affrontare compiti reali di ingegneria del software freelance.

I ricercatori hanno analizzato 1.488 incarichi provenienti dalla piattaforma Upwork, con un valore complessivo di 1 milione di dollari, suddividendoli in due categorie principali:

  • Compiti individuali: incentrati sulla risoluzione di bug o sull’implementazione di nuove funzionalità.
  • Compiti gestionali: dove il modello assumeva il ruolo di manager, valutando e selezionando le migliori proposte per risolvere determinati problemi.

I modelli testati includevano GPT-4o e o1 di OpenAI, oltre a Claude-3.5 Sonnet di Anthropic. I risultati hanno rivelato che, nonostante gli LLM possano essere efficaci nel correggere bug quando questi sono già stati identificati, mostrano difficoltà significative nell’individuazione autonoma dei problemi all’interno del codice. Inoltre, è emerso che, durante il processo di correzione, i modelli tendevano a introdurre nuovi errori, indicando una comprensione incompleta del contesto e delle implicazioni delle modifiche apportate.

Questo studio sottolinea l’importanza della supervisione umana nel ciclo di sviluppo software. Sebbene gli LLM rappresentino strumenti potenti per assistere gli ingegneri, non sono ancora in grado di sostituire completamente l’intuito, l’esperienza e la capacità di discernimento che i professionisti umani apportano. La collaborazione tra intelligenza artificiale e ingegneri rimane quindi essenziale per garantire la qualità e l’affidabilità del software prodotto.

Di Fantasy