ChatGPT non può ancora competere con gli umani quando si tratta di contabilità
Un massiccio studio di crowdsourcing proviene da 327 coautori presso 186 istituzioni di 14 paesi
Il chatbot di intelligenza artificiale di ChatGPT: quanto bene risponde alle domande di valutazione contabile?
Il mese scorso, OpenAI ha lanciato il suo ultimo prodotto chatbot AI, GPT-4. Secondo i ragazzi di OpenAI, il bot, che utilizza l’apprendimento automatico per generare testo in linguaggio naturale, ha superato l’esame di abilitazione con un punteggio nel 90° percentile , ha superato 13 esami AP su 15 e ha ottenuto un punteggio quasi perfetto nel test verbale GRE .
Le menti curiose della BYU e di altre 186 università volevano sapere come se la sarebbe cavata la tecnologia di OpenAI agli esami di contabilità. Quindi, hanno messo alla prova la versione originale, ChatGPT. I ricercatori affermano che sebbene abbia ancora del lavoro da fare nel regno della contabilità, è un punto di svolta che cambierà il modo in cui tutti insegnano e imparano, in meglio.
“Quando questa tecnologia è uscita per la prima volta, tutti erano preoccupati che gli studenti potessero ora usarla per imbrogliare”, ha detto l’autore principale dello studio David Wood, professore di contabilità della BYU. “Ma le opportunità per imbrogliare sono sempre esistite. Quindi per noi, stiamo cercando di concentrarci su cosa possiamo fare con questa tecnologia ora che non potevamo fare prima per migliorare il processo di insegnamento per i docenti e il processo di apprendimento per gli studenti. Provarlo è stato illuminante.
Dal suo debutto nel novembre 2022, ChatGPT è diventata la piattaforma tecnologica in più rapida crescita di sempre, raggiungendo 100 milioni di utenti in meno di due mesi. In risposta all’intenso dibattito su come modelli come ChatGPT dovrebbero tenere conto dell’istruzione, Wood ha deciso di reclutare quanti più professori possibile per vedere come se la cavava l’intelligenza artificiale rispetto agli studenti di contabilità universitaria.
La sua proposta di reclutamento di coautori sui social media è esplosa: 327 coautori di 186 istituzioni educative in 14 paesi hanno partecipato alla ricerca, contribuendo con 25.181 domande d’esame di contabilità in classe. Hanno anche reclutato studenti universitari della BYU (inclusa la figlia di Wood, Jessica) per fornire a ChatGPT altre 2.268 domande sulla banca di test dei libri di testo. Le domande riguardavano i sistemi informativi contabili (AIS), la revisione contabile, la contabilità finanziaria, la contabilità gestionale e fiscale, e variavano per difficoltà e tipologia (vero/falso, scelta multipla, risposta breve, ecc.).
Sebbene le prestazioni di ChatGPT siano state impressionanti, gli studenti hanno ottenuto risultati migliori. Gli studenti hanno ottenuto una media complessiva del 76,7%, rispetto al punteggio di ChatGPT del 47,4%. Su un 11,3% di domande, ChatGPT ha ottenuto un punteggio superiore alla media degli studenti, ottenendo risultati particolarmente buoni su AIS e auditing. Ma il bot AI ha fatto peggio nelle valutazioni fiscali, finanziarie e gestionali, forse perché ChatGPT ha faticato con i processi matematici richiesti per quest’ultimo tipo.
Per quanto riguarda il tipo di domanda, ChatGPT ha ottenuto risultati migliori nelle domande vero/falso (68,7% corrette) e nelle domande a scelta multipla (59,5%), ma ha faticato con le domande a risposta breve (tra il 28,7% e il 39,1%). In generale, le domande di ordine superiore erano più difficili da rispondere a ChatGPT. In effetti, a volte ChatGPT fornisce descrizioni scritte autorevoli per risposte errate o risponde alla stessa domanda in modi diversi.
“Non è perfetto; non lo userai per tutto “, ha detto Jessica Wood, attualmente matricola alla BYU. “Cercare di imparare esclusivamente utilizzando ChatGPT è un’impresa da pazzi.”
I ricercatori hanno anche scoperto alcune altre tendenze affascinanti attraverso lo studio, tra cui:
ChatGPT non sempre riconosce quando sta facendo matematica e commette errori senza senso come aggiungere due numeri in un problema di sottrazione o dividere i numeri in modo errato.
ChatGPT fornisce spesso spiegazioni per le sue risposte, anche se non sono corrette. Altre volte, le descrizioni di ChatGPT sono accurate, ma procederà quindi a selezionare la risposta a scelta multipla sbagliata.
ChatGPT a volte inventa fatti. Ad esempio, quando si fornisce un riferimento, viene generato un riferimento dall’aspetto reale completamente fabbricato. L’opera e talvolta gli autori non esistono nemmeno.
Detto questo, gli autori si aspettano pienamente che GPT-4 migliori in modo esponenziale sulle questioni contabili poste nel loro studio e sui problemi sopra menzionati. Ciò che trovano più promettente è il modo in cui il chatbot può aiutare a migliorare l’insegnamento e l’apprendimento, inclusa la capacità di progettare e testare compiti, o forse essere utilizzato per la stesura di parti di un progetto.
“È un’opportunità per riflettere sul fatto che stiamo insegnando o meno informazioni a valore aggiunto”, ha affermato Melissa Larson, coautrice dello studio e collega professore di contabilità della BYU. “Questa è un’interruzione e dobbiamo valutare dove andremo da qui. Certo, avrò ancora i TA, ma questo ci costringerà a usarli in modi diversi”.