Non è un segreto che la Cina abbia il COVID-19 sotto controllo. Quando viaggi lì devi passare una quarantena in hotel di 2 settimane, ma una volta che sei nel paese, sei al sicuro. Probabilmente anche più sicuro di prima del COVID, poiché indossare una maschera fa ora parte dell’etichetta e le molte altre malattie respiratorie virali rischiano di essere in declino. Quindi, quando sono stato invitato a parlare alla conferenza annuale della Beijing Academy of Artificial Intelligence (BAAI) nella sezione AI for healthcare, ho prontamente accettato.


Il BAAI è un’ottima piattaforma per mostrare tecnologia e talento in ampie categorie. L’istituto senza scopo di lucro incoraggia gli scienziati ad affrontare i problemi e promuovere scoperte nelle teorie, negli strumenti, nei sistemi e nelle applicazioni dell’IA. Inoltre, la BAAI ha un focus unico sulla ricerca a lungo termine sulla tecnologia AI.

L’intelligenza artificiale è grande in Cina. Così grande che oltre 70.000 persone si registrano per l’evento e molti altri si sintonizzano per guardare le presentazioni BAAI dopo l’evento. E possono presentare approcci, algoritmi, sistemi e applicazioni molto nuovi. Tuttavia, il vero successo al BAAI è stato Wu Dao 2.0, un sistema che ha superato il GPT-3 di OpenAI in molti modi.


L’Enciclopedia Britannica definisce il linguaggio come un “sistema di simboli convenzionali parlati, manuali o scritti mediante i quali gli esseri umani, in quanto membri di un gruppo sociale e partecipanti alla sua cultura, si esprimono”. Possiamo concludere da questa definizione che il linguaggio è parte integrante della connessione umana. Non solo ci permette di condividere idee, pensieri e sentimenti tra di noi, il linguaggio ci permette anche di creare e costruire società e imperi. In parole semplici: il linguaggio ci rende umani.

Secondo il professor Gareth Gaskell del Dipartimento di Psicologia dell’Università di York, il ventenne medio conosce tra 27.000 e 52.000 parole diverse. All’età di 60 anni, quel numero è in media tra 35.000 e 56.000. Pertanto, quando usiamo le parole in una conversazione, il cervello deve prendere una decisione rapida su quali parole usare e in quale sequenza. In questo contesto, il cervello funziona come un processore che può fare più cose contemporaneamente.

 
Gli scienziati del linguaggio suggeriscono che ogni parola che conosciamo è rappresentata da un’unità di elaborazione separata che ha un compito: valutare la probabilità che il discorso in arrivo corrisponda a quella particolare parola. Nel contesto del cervello, l’unità di elaborazione che rappresenta una parola è simile a un modello di attività attraverso un gruppo di neuroni nel cervello. Quindi, quando sentiamo l’inizio di una parola, diverse migliaia di tali unità diventano attive perché ci sono molte possibili corrispondenze.

La maggior parte delle persone può comprendere fino a circa otto sillabe al secondo. Tuttavia, l’obiettivo non è riconoscere la parola, ma accedere al suo significato memorizzato. Il cervello accede a molti possibili significati della parola prima che sia stata completamente identificata. Gli studi dimostrano che dopo aver ascoltato un frammento di parola come “cap”, gli ascoltatori iniziano a registrare molteplici significati possibili come “capitano” o “capitale” prima che emerga la parola completa.

Come la maggior parte le cose guidati da intelligenza artificiale nel 21 ° secolo, il linguaggio si sta evolvendo a prendere forme e significati diversi. Recentemente il concetto di ” modelli linguistici ” ha preso il centro della scena nell’IA. In sostanza, i modelli linguistici determinano la probabilità delle parole analizzando i dati di testo. Ciò significa che i modelli linguistici interpretano i dati attraverso l’uso di tecniche statistiche e probabilistiche per calcolare la probabilità di una determinata sequenza di parole. I modelli linguistici sono comunemente usati nelle applicazioni di elaborazione del linguaggio naturale come quelle che generano testo come output. Questi includono la traduzione automatica e la risposta alle domande.

Quando Microsoft ha rivelato il suo modello linguistico Turing-NLG nel febbraio 2020, è stato salutato come il più grande modello mai pubblicato e uno che ha superato gli altri modelli su vari benchmark di modellazione linguistica. Alla sua uscita, Turing-NLG ha pubblicato 17 miliardi di parametri e potrebbe generare parole per completare attività testuali aperte. Il modello è stato anche in grado di generare risposte dirette a domande e riassunti dei documenti di input.

Nel marzo dello stesso anno, OpenAI ha presentato la sua versione di un modello di linguaggio autoregressivo chiamato Generative Pre-trained Transformer 3 (GPT-3), che utilizza il deep learning per creare un testo simile a quello umano. Questo modello di linguaggio di terza generazione della serie GPT-n ha una capacità di 175 miliardi di parametri di apprendimento automatico. I ricercatori di OpenAI hanno pubblicato un documento in cui hanno dimostrato che GPT-3 può generare articoli di notizie che i valutatori umani hanno difficoltà a distinguere dagli articoli scritti da esseri umani. Questi ricercatori affermano anche che il modello linguistico può essere addestrato per generare 100 pagine di contenuti che costano solo pochi centesimi in costi energetici.

Il GPT-3 è stato ritenuto così forte e potente che Microsoft ha concesso in licenza l’uso esclusivo del modello linguistico e del suo codice sottostante.

Solo un anno dopo, tuttavia, un altro modello linguistico ha assunto sia GPT-3 che Turing-NLG in termini di innovazione e ingegnosità.
Questo modello, chiamato Wu Dao 2.0, è stato presentato al BAAI. Il lavoro alla base di Wu Dao 2.0, che è soprannominato il primo sistema di modelli intelligenti su larga scala della Cina, è stato guidato dal vicepresidente accademico della ricerca BAAI e dal professor Tang Jie dell’Università di Tsinghua . È stato supportato da un team di oltre 100 scienziati di intelligenza artificiale dell’Università di Pechino, dell’Università Tsinghua, della Renmin University of China, dell’Accademia cinese delle scienze e di altre istituzioni.

Wu Dao 2.0 è in realtà il successore di Wu Dao 1.0, presentato dalla BAAI all’inizio di quest’anno. Wu Dao 2.0 è davvero la risposta più grande e migliore della Cina al GPT-3.

Innanzitutto, a differenza di GPT-3, Wu Dao 2.0 si sviluppa sia in cinese che in inglese con competenze acquisite analizzando 4,9 terabyte di immagini e testi. Wu Dao 2.0 ha anche accordi di partnership con 22 marchi tra cui il produttore di smartphone Xiaomi e l’app video Kuaishou. Il modello cinese è stato addestrato su 1,75 trilioni di parametri, che è quasi 10 volte maggiore dei 175 miliardi di parametri su cui è stato addestrato GPT-3.

Wu Dao 2.0 può anche scrivere poesie in stili tradizionali cinesi, rispondere a domande, scrivere saggi e scrivere testi per immagini. Inoltre, questo modello linguistico ha raggiunto o superato i livelli di stato dell’arte (SOTA) su nove benchmark, come riportato da BAAI. Questi includono:

1- ImageNet (zero-shot): SOTA, superando OpenAI CLIP.

2- LAMA (conoscenza fattuale e di buon senso): AutoPrompt superato.

3- LAMBADA (compiti chiusi): ha superato Microsoft Turing NLG.

4- SuperGLUE (pochi colpi): SOTA, superando OpenAI GPT-3.

5- UC Merced Land Use (zero-shot): SOTA, superando OpenAI CLIP.

6- MS COCO (diagramma di generazione del testo):  OpenAI DALL·E superato .

7- MS COCO (recupero grafico inglese): ha superato OpenAI CLIP e  Google ALIGN .

8- MS COCO (recupero grafico multilingue): Superato  UC  (miglior modello pre-addestrato multilingue e multimodale).

9- Multi 30K (recupero grafico multilingue): UC superato.

Infine, Wu Dao 2.0 ha presentato Hua Zhibing, il primo studente virtuale cinese al mondo. Hua può imparare, disegnare e comporre poesie. In futuro, sarà in grado di imparare a programmare. Questa capacità di apprendimento di Wu Dao 2.0 è in netto contrasto con GPT-3.

Altri dettagli su come e cosa esattamente Wu Dao 2.0 è stato addestrato non sono ancora disponibili, rendendo difficile il confronto diretto con GPT-3. Tuttavia, il nuovo modello linguistico è la testimonianza delle ambizioni dell’IA della Cina e dei suoi superbi programmi di ricerca. Non c’è dubbio che l’innovazione dell’IA aumenterà nei prossimi anni e molti di questi sviluppi innovativi aiuteranno a far progredire molti altri settori.


Uno dei luminari e investitori dell’intelligenza artificiale, che ha contribuito a costruire almeno 7 unicorni alimentati dall’intelligenza artificiale guidati dall’intelligenza artificiale, il dott. Kai-Fu Lee, ha recentemente tenuto un discorso all’Hong Kong Science and Technology Park dove ha spiegato la potenza dei trasformatori e mettendo a punto i massicci modelli pre-addestrati come Wu Dao 2.0. Questi modelli possono essere messi a punto per molteplici settori e un gran numero di applicazioni come l’istruzione, la finanza, il diritto, l’intrattenimento e, soprattutto, la ricerca sanitaria e biomedica.

È probabile che le applicazioni dei trasformatori nella ricerca biomedica producano nuove scoperte che andranno a beneficio degli esseri umani indipendentemente da dove vivono. E speriamo sinceramente che, nonostante le guerre commerciali, i governi considerino la possibilità di collaborare alla ricerca biomedica.

 

Di ihal