GPT-3 ti ha spaventato? Incontra Wu Dao 2.0: un mostro di 1,75 trilioni di parametri
Wu Dao 2.0 è 10 volte più grande di GPT-3. Immagina cosa può fare.
Stiamo vivendo tempi entusiasmanti nell’IA. OpenAI ha scioccato il mondo un anno fa con GPT-3 . Due settimane fa Google ha presentato LaMDA e MUM , due AI che rivoluzioneranno rispettivamente i chatbot e il motore di ricerca. E proprio pochi giorni fa, il 1° giugno, la conferenza dell’Accademia di Intelligenza Artificiale di Pechino (BAAI) ha presentato Wu Dao 2.0.
Wu Dao 2.0 è ora la più grande rete neurale mai creata e probabilmente la più potente. Le sue potenzialità e i suoi limiti devono ancora essere pienamente svelati, ma le aspettative sono alte e giustamente.
In questo un r ticolo, io rivedere le informazioni disponibili su Wu Tao 2.0: Che cosa è, che cosa può fare, e quali sono le promesse dei suoi creatori per il futuro. Godere!
Wu Dao 2.0: caratteristiche principali rispetto a GPT-3
Parametri e dati
Wu Dao, che significa Illuminazione , è un altro modello linguistico simile a GPT. Jack Clark, direttore delle politiche di OpenAI, chiama questa tendenza alla copia di GPT-3 “diffusione del modello”. Eppure, tra tutte le copie, Wu Dao 2.0 detiene il record di essere la più grande di tutte con un sorprendente valore di 1,75 trilioni di parametri (10x GPT-3).
Coco Feng ha riferito per il South China Morning Post che Wu Dao 2.0 è stato addestrato su 4,9 TB di dati di testo e immagini di alta qualità, il che rende il set di dati di allenamento di GPT-3 (570 GB) pallido in confronto. Tuttavia, vale la pena notare che i ricercatori di OpenAI hanno curato 45 TB di dati per estrarre quei 570 GB.
I dati della formazione sono suddivisi in:
1.2 TB di dati di testo in cinese in Wu Dao Corpora.
Dati grafici cinesi da 2,5 TB.
Dati di testo in inglese da 1,2 TB nel set di dati Pile.
Multimodalità
Wu Dao 2.0 è multimodale. Può imparare da testo e immagini e affrontare attività che includono entrambi i tipi di dati (cosa che GPT-3 non può fare). Stiamo assistendo a un passaggio negli ultimi anni dai sistemi di intelligenza artificiale specializzati nella gestione di un’unica modalità di informazione verso la multimodalità.
Si prevede che la visione artificiale e l’elaborazione del linguaggio naturale, tradizionalmente i due grandi rami all’interno del deep learning, finiranno per essere combinati in ogni sistema di intelligenza artificiale in futuro. Il mondo è multimodale. Gli esseri umani sono multisensoriali. È ragionevole creare AI che imitano questa funzione.
Miscela di esperti
Wu Dao 2.0 è stato addestrato con FastMoE, un sistema simile al Mixture of Experts (MoE) di Google . L’idea è quella di addestrare diversi modelli all’interno di un modello più ampio per ciascuna modalità. Un sistema di gating consente al modello più grande di selezionare quali modelli consultare per ogni tipo di attività.
FastMoE, a differenza del MoE di Google, è open source e non richiede hardware specifico, il che lo rende più democratico. Ha permesso ai ricercatori BAAI di risolvere i colli di bottiglia della formazione che impediscono a modelli come GPT-3 di raggiungere il traguardo di 1 trilione di parametri. Hanno scritto nel blog WeChat ufficiale di BAAI che “[FastMoE] è semplice da usare, flessibile, ad alte prestazioni e supporta la formazione parallela su larga scala”. Il futuro dei grandi sistemi di intelligenza artificiale passerà sicuramente attraverso questi quadri di formazione.
Le fantastiche capacità di Wu Dao 2.0
Multitasking
In un articolo per VentureBeat , Kyle Wiggers ha enfatizzato le capacità multimodali di Wu Dao 2.0: Ha “la capacità di eseguire attività di elaborazione del linguaggio naturale, generazione di testo, riconoscimento di immagini e generazione di immagini. […] oltre a didascalie immagini e creazione di opere d’arte quasi fotorealistiche, date descrizioni in linguaggio naturale.
Andrew Tarantola scrive per Engadget che Wu Dao 2.0 può “sia generare testo alternativo basato su un’immagine statica sia generare immagini quasi fotorealistiche basate su descrizioni del linguaggio naturale. [Può anche] prevedere le strutture 3D delle proteine, come AlphaFold di DeepMind .
Il principale ricercatore Tang Jie ha evidenziato le abilità di Wu Dao 2.0 nella “creazione di poesie, distici, riassunti testuali, domande e risposte sull’impostazione umana, pittura” e ha persino riconosciuto che il sistema “è stato vicino a sfondare il test di Turing, e competere con gli umani”.
Wu Dao 2.0 non ha nulla da invidiare a GPT-3 oa qualsiasi altro modello di intelligenza artificiale esistente. Le sue abilità multitasking e la natura multimodale gli conferiscono il titolo di AI più versatile. Questi risultati suggeriscono che le multi-IA domineranno il futuro.
Risultati di riferimento
Wu Dao 2.0 ha raggiunto/superato i livelli di stato dell’arte (SOTA) su 9 task benchmark ampiamente riconosciuti dalla comunità AI, come riportato da BAAI (benchmark: achievement).
ImageNet (zero-shot): SOTA, superando OpenAI CLIP .
LAMA (conoscenza fattuale e di buon senso): Superato AutoPrompt .
LAMBADA (compiti chiusi): ha superato Microsoft Turing NLG .
SuperGLUE (pochi scatti): SOTA, superando OpenAI GPT-3 .
UC Merced Land Use (zero-shot): SOTA, superando OpenAI CLIP.
MS COCO (diagramma di generazione del testo): OpenAI DALL·E superato .
MS COCO (recupero grafico inglese): ha superato OpenAI CLIP e Google ALIGN .
MS COCO (recupero grafico multilingue): Superato UC² (miglior modello pre-addestrato multilingue e multimodale).
Multi 30K (recupero di grafica multilingue): Superato UC².
È innegabile che questi risultati siano sorprendenti. Wu Dao 2.0 raggiunge livelli eccellenti nei benchmark chiave attraverso attività e modalità. Tuttavia, manca un confronto quantitativo tra i modelli Wu Dao 2.0 e SOTA in questi benchmark. Fino a quando non pubblicheranno un articolo, dovremo aspettare per vedere il grado di stupore di Wu Dao 2.0.
Uno studente virtuale
Hua Zhibing, figlio di Wu Dao 2.0, è il primo studente virtuale cinese. Può imparare continuamente, comporre poesie, disegnare immagini e imparerà a programmare in futuro. A differenza di GPT-3, Wu Dao 2.0 può apprendere diversi compiti nel tempo, senza dimenticare ciò che ha appreso in precedenza. Questa caratteristica sembra avvicinare ulteriormente l’IA alla memoria umana e ai meccanismi di apprendimento.
Tang Jie è arrivato al punto di affermare che Hua Zhibing ha “una certa capacità di ragionamento e interazione emotiva”. People’s Daily Online ha riferito che Peng Shuang, un membro del gruppo di ricerca di Tang, “sperava che la ragazza virtuale avesse un EQ più alto e fosse in grado di comunicare come un essere umano”.
Quando le persone hanno iniziato a giocare con GPT-3, molti sono impazziti per i risultati. “Senziente”, “intelligenza generale” e in grado di “capire” erano alcuni degli attributi che le persone attribuivano a GPT-3. Finora, non ci sono prove che questo sia vero. Ora, la palla è nel campo di Wu Dao 2.0 per mostrare al mondo che è capace di “ragionamento e interazione emotiva”. Per ora, sarei prudente prima di saltare alle conclusioni.
Considerazioni finali: Wu Dao 2.0 verso AGI
Alcuni dei membri più importanti di BAAI hanno espresso il loro pensiero sul ruolo di Wu Dao 2.0 sulla strada verso l’AGI (intelligenza artificiale generale):
“La strada per l’intelligenza artificiale generale sono i grandi modelli e il grande computer. […] Quello che stiamo costruendo è una centrale elettrica per il futuro dell’IA. Con megadati, mega potenza di calcolo e mega modelli, possiamo trasformare i dati per alimentare le applicazioni AI del futuro”.
— Dott. Zhang Hongjiang, presidente di BAAI
“Questi modelli sofisticati, addestrati su set di dati giganteschi, richiedono solo una piccola quantità di nuovi dati se utilizzati per una funzione specifica perché possono trasferire le conoscenze già apprese in nuovi compiti, proprio come gli esseri umani. […] I modelli pre-addestrati su larga scala sono una delle migliori scorciatoie odierne per l’intelligenza artificiale generale”.
— Blake Yan, ricercatore di intelligenza artificiale
Wu Dao 2.0 mira a consentire alle macchine di pensare come gli umani e raggiungere capacità cognitive oltre il test di Turing.
— Tang Jie, ricercatore capo dietro Wu Dao 2.0
Scommettono su modelli multimodali e multitasking simili a GPT per raggiungere AGI. Senza dubbio, Wu Dao 2.0, come prima GPT-3, è un passo importante verso l’AGI. Tuttavia, quanto ci porterà più vicino è discutibile. Alcuni esperti sostengono che avremo bisogno di modelli ibridi per raggiungere AGI. Altri difendono l’IA incarnata, rifiutando del tutto i paradigmi senza corpo tradizionali, come le reti neurali.
Nessuno sa quale sia la strada giusta. Anche se i modelli pre-addestrati più grandi sono la tendenza logica oggi, potremmo perdere la foresta per gli alberi e potremmo finire per raggiungere un tetto meno ambizioso in futuro. L’unica cosa chiara è che se il mondo deve subire danni ambientali , pregiudizi dannosi o alti costi economici , non varrebbe nemmeno la pena di raggiungere l’AGI.