ChatGPT vs Stack Overflow: chi risponde meglio alle domande di ingegneria del software

A partire dal 2008, ogni volta che un programmatore aveva una domanda, la sua prima destinazione era Stack Overflow (SO). Questo è continuato finché OpenAI non ha introdotto ChatGPT nel panorama.

ChatGPT è stato un valido strumento per soddisfare le esigenze informative. Tuttavia, una nuova ricerca solleva dubbi sulla sua efficacia nel fornire suggerimenti per l’ingegneria del software. In relazione a questioni di programmazione simili a quelle presenti su SO, ChatGPT di OpenAI si è dimostrato errato più della metà delle volte.

Poiché mancavano dati che quantificassero l’efficacia di ChatGPT nel rispondere a tali richieste, la Purdue University ha condotto uno studio approfondito su questo dilemma. Per valutarne l’efficacia, i ricercatori, guidati da Samia Kabir, hanno sottoposto ChatGPT a 517 domande simili a quelle comuni su SO. Le risposte sono state valutate in termini di accuratezza e qualità.

I risultati di questa ricerca raccontano una storia rilevante. Delle risposte totali, il 52% (259 risposte) si è rivelato errato, mentre il 48% è risultato corretto. Inoltre, ben il 77% delle risposte è risultato eccessivamente verboso. Questa quantità considerevole di informazioni, sebbene ben strutturata, ha sollevato preoccupazioni circa la chiarezza e l’efficienza. Curiosamente, l’inesattezza del modello AI è stata in parte nascosta dalla sua eloquenza, evidenziando un paradosso tra inesattezza e apparente competenza comunicativa, come indicato nel documento di ricerca.

Un utente ha sottolineato che, in base alla sua esperienza, ChatGPT tende a produrre risposte sbagliate o comunque imprecise su argomenti noti. “Che sia corretto, impreciso o completamente errato, il linguaggio delle risposte è altrettanto convincente. Ciò aumenta notevolmente la probabilità che le risposte siano errate in argomenti che il modello non conosce. Non posso stabilire se il testo prodotto sia approssimativamente corretto, pericolosamente sbagliato o semplicemente inaccurato. Pertanto, risulta essere più dannoso che inutile”.

La ricerca, dal titolo “Chi risponde meglio? Un’analisi dettagliata delle risposte di ChatGPT e Stack Overflow alle domande di ingegneria del software”, ha rivelato ulteriori aspetti preoccupanti e approfondimenti.

Gli autori hanno notato che ChatGPT di OpenAI tende a commettere errori concettuali piuttosto che errori di fatto. “Molte risposte sono sbagliate a causa della sua incapacità di comprendere il contesto alla base delle domande”, ha osservato il documento.

All’inizio di questo mese, Stack Overflow ha deciso di adottare la ricerca semantica a causa dell’aumento costante del traffico sulla piattaforma. Nel loro blog di annuncio, l’azienda ha sottolineato che “la ricerca semantica e i modelli di linguaggio vanno insieme come biscotti e latte”. In breve, la ricerca semantica comprende il significato e l’intento delle domande come farebbe un essere umano, producendo risultati di ricerca precisi e pertinenti in contesto.

Sempre nel blog di annuncio, Stack Overflow ha enfatizzato la sua “etica: precisione e attribuzione”. Mentre vari modelli GPT generano risultati da fonti anonime, l’azienda ha fatto uno sforzo per attribuire domande e risposte utilizzate nei loro riepiloghi attraverso il modello “Retrieval Augmented Generation” (RAG).

Da quando è stato rilasciato ChatGPT, si è diffusa la voce che il chatbot AI stia soppiantando Stack Overflow. Questa affermazione si basa sulla diminuzione degli utenti sulla piattaforma di domande e risposte per sviluppatori. Secondo lo studio della Purdue, il declino delle piattaforme convenzionali come Stack Overflow indica che la popolarità di ChatGPT sta ridefinendo il panorama dell’assistenza alla programmazione online.

Questo cambiamento è riflesso anche nei risultati dell’indagine annuale per sviluppatori di Stack Overflow del 2023, che ha coinvolto 90.000 programmatori. L’indagine mostra che il 77% degli sviluppatori ha una visione positiva degli strumenti di intelligenza artificiale, ma solo il 42% si fida della loro precisione. Per cercare di migliorare questa situazione, due settimane fa l’azienda con sede a New York ha lanciato una serie di strumenti di intelligenza artificiale sotto il nome di “OverflowAI”.

In una risposta strategica, Stack Overflow ha anche introdotto “GenAI Stack Exchange”, una piattaforma comunitaria dedicata alla condivisione di informazioni sugli strumenti di intelligenza artificiale. Questi passi recenti riflettono l’impegno di Stack Overflow nell’adattarsi alle mutevoli preferenze degli sviluppatori che cercano informazioni sull’IA. Inoltre, Stack Overflow ha creato il collettivo “Stack Overflow Natural Language Processing (NLP)” con una funzione chiamata “Discussions” per promuovere dibattiti approfonditi sugli aspetti tecnici dell’intelligenza artificiale.

Con l’introduzione di queste nuove funzionalità di intelligenza artificiale, l’azienda sta facendo ulteriori sforzi per competere con l’attuale strumento preferito in rete, ChatGPT. Nonostante una leggera diminuzione nell’uso, lo studio della Purdue conclude che Stack Overflow è riuscito a mantenere un vantaggio nel settore dell’ingegneria.

ChatGPT vs Stack Overflow: chi risponde meglio alle domande di ingegneria del software

DiFantasy

Di Fantasy

Articoli correlati

OpenAI interrompe il supporto ai vecchi modelli in ChatGPT: l’addio a GPT-4o

Moltbook, il social network dove a parlare sono solo i robot

Anthropic porta i plugin in Claude Cowork e punta sull’AI su misura per i reparti aziendali

Ultimi Post

OpenAI interrompe il supporto ai vecchi modelli in ChatGPT: l’addio a GPT-4o

Moltbook, il social network dove a parlare sono solo i robot

Anthropic porta i plugin in Claude Cowork e punta sull’AI su misura per i reparti aziendali

L’ipotesi di una fusione globale per le aziende di Elon Musk e la possibile nascita di Musk Inc.