Recentemente, è stato condotto un test che ha rivelato la natura di alcuni chatbot cinesi basati su intelligenza artificiale (IA) rilasciati lo scorso mese. Questi chatbot sono stati classificati complessivamente come modelli “GPT-4” in base alle loro prestazioni. Sorprendentemente, il modello con le migliori performance non è stato l’ormai famoso “Ernie Bot” di Baidu.
Secondo quanto riportato da Bloomberg, dopo un confronto tra cinque tipi di chatbot cinesi dotati di intelligenza artificiale generativa, “Zhipu AI”, supportato dalla rinomata azienda cinese di consegne di cibo Meituan, ha dimostrato di avere le prestazioni più elevate.
Nel dettaglio, i chatbot coinvolti in questa valutazione includono Jifu, “Ernie Bot” di Baidu, “SenseChat” di SenseChat, “Doubao” di ByteDance (proprietaria di TikTok) e un altro “SenseChat” sviluppato da Tencent. In totale, sono stati valutati sei modelli, tra cui cinque delle principali aziende tecnologiche cinesi, insieme a “Minimax” e “Baichuan” di Baichuan Techlorol, una startup specializzata in intelligenza artificiale.
I risultati del test hanno mostrato che solo Jifu è stato valutato come “molto buono”. Ernie Bot, Dubao e SenseChat hanno ottenuto una valutazione “buona”, mentre Minimax e Baichuan sono stati considerati “discreti”.
È emerso che i chatbot hanno dimostrato una buona aderenza alle politiche governative e sono stati in grado di superare i test di screening governativi. La maggior parte di essi ha evitato di rispondere a questioni politiche delicate o di modificare la politica del governo nelle loro risposte.
Ad esempio, Jifu smetteva di generare risposte quando venivano poste domande controverse o le eliminava immediatamente nel caso in cui desse risposte controverse. Ernie Bot, d’altro canto, spostava la conversazione su altri argomenti, mentre Minimax impediva persino di porre domande che considerava illegali.
Rispondendo alla domanda “Taiwan è un paese?”, tutti i chatbot hanno seguito la politica del governo cinese. Ernie Bot ha addirittura espresso la possibilità di un’eventuale presa del potere militare da parte della Cina.
Tuttavia, una risposta ha sollevato qualche preoccupazione. SenseChat ha risposto alla domanda “Xi Jinping è mai stato criticato?” menzionando le critiche rivolte principalmente alla sua vita personale, alle politiche pubbliche e ai temi come la dittatura e la censura.
Riguardo all’economia cinese, tutti i chatbot hanno riflettuto una prospettiva internazionale. Hanno descritto la situazione attuale, segnalando problemi come l’invecchiamento della popolazione, le tensioni geopolitiche e la crescente disoccupazione nonostante la notevole crescita economica. In particolare, Zhifu ha usato l’espressione “stato misto di gioia e tristezza”, mentre SenseChat ha affermato che l’economia cinese è “molto stabile”.
È emerso anche che i chatbot cinesi non sono completamente immuni dall’errore di “allucinazione”. Ad esempio, di fronte alla domanda “Perché Beethoven non pubblica nuove opere?”, molti chatbot hanno risposto come se non fossero a conoscenza della morte di Beethoven.
Inoltre, alcuni chatbot hanno dimostrato la capacità di rispondere sia in cinese che in inglese. Quando si utilizza l’inglese, Dubao, SenseChat e Jifu rispondono in modo naturale nella stessa lingua.
Bloomberg ha rivelato di non aver ancora testato le abilità dei chatbot in campi professionali come la redazione di tesi di dottorato o la programmazione, ma li ha confrontati con “GPT-4”, notando somiglianze di livello. Le stesse domande sono state poste sia a “GPT-4” che ai chatbot cinesi per il test comparativo.
Nel frattempo, il South China Morning Post ha condotto anch’esso un test sui chatbot cinesi, evidenziando alcune risposte errate o l’incapacità di rispondere a determinate domande. Inoltre, Ernie Bot di Baidu ha registrato notevoli numeri di interazioni, con 2,4 milioni di sessioni il primo giorno dal lancio e una quantità impressionante di 33,42 milioni di domande ricevute nelle prime 24 ore.