Il grande modello linguistico di Naver sta alimentando i consigli per gli acquisti 

A giugno, Naver , la società con sede a Seongnam, in Corea del Sud, che gestisce l’omonimo motore di ricerca Naver, ha annunciato di aver addestrato uno dei più grandi modelli di linguaggio di intelligenza artificiale del suo genere, chiamato HyperCLOVA. Naver ha affermato che il sistema ha appreso 6.500 volte più dati coreani rispetto al GPT-3 di OpenAI e conteneva 204 miliardi di parametri, le parti del modello di apprendimento automatico apprese dai dati di addestramento storici. (GPT-3 ha 175 miliardi di parametri.)

HyperCLOVA è stato visto come un risultato notevole a causa della scala del modello e poiché si adatta alla tendenza della “diffusione” del modello generativo, con più attori che sviluppano modelli in stile GPT-3, come il PanGu-Alpha di Huawei (Stilizzato PanGu-α) . I vantaggi dei modelli linguistici di grandi dimensioni, inclusa la capacità di generare testi simili a quelli umani per scopi di marketing e assistenza clienti, erano precedentemente limitati all’inglese perché le aziende non avevano le risorse per addestrare questi modelli in altre lingue.

 
Nei mesi trascorsi dallo sviluppo di HyperCLOVA, Naver ha iniziato a utilizzarlo per personalizzare i risultati di ricerca sulla piattaforma Naver, ha dichiarato in un’intervista l’amministratore delegato di Naver, Nako Sung, a VentureBeat. Sarà presto disponibile anche in versione beta privata tramite HyperCLOVA Studio, uno strumento senza codice che consentirà agli sviluppatori di accedere al modello per le attività di generazione e classificazione del testo.

“Inizialmente utilizzato per correggere errori di battitura nelle query di ricerca su Naver Search, [HyperCLOVA] ora sta abilitando molte nuove funzionalità sulla nostra piattaforma di e-commerce, Naver Shopping, come riassumere più recensioni dei consumatori in una riga, consigliare e curare i prodotti in base alle preferenze di acquisto degli utenti o generare frasi di marketing alla moda per le collezioni di acquisti in primo piano”, ha affermato Sung. “Abbiamo anche lanciato CLOVA CareCall, un … agente conversazionale per gli anziani che vivono da soli. Il servizio si basa sulle capacità di generazione di conversazioni naturali di HyperCLOVA, consentendogli di avere conversazioni simili a quelle umane.

Grandi modelli linguistici
Secondo Sung, la formazione di HyperCLOVA, in grado di comprendere l’inglese e il giapponese oltre al coreano, richiedeva un’infrastruttura di data center su larga scala. Naver ha sfruttato un cluster di server composto da 140 nodi Nvidia SuperPod A100 DGX, che secondo la società può fornire fino a 700 petaflop di potenza di calcolo.

 
Ci sono voluti mesi per addestrare HyperCLOVA su 2 TB di dati di testo coreani, molti dei quali provenivano da contenuti generati dagli utenti sulle piattaforme di Naver. Ad esempio, una fonte era Knowledge iN, una comunità in lingua coreana simile a Quora in cui gli utenti possono porre domande su argomenti per ricevere risposte da esperti. Un altro erano i post pubblici di persone che utilizzano servizi di web hosting gratuiti forniti tramite Naver.

Sung afferma che questo differenzia HyperCLOVA dai precedenti modelli linguistici di grandi dimensioni come GPT-3, che hanno una capacità limitata di comprendere le sfumature delle lingue oltre all’inglese. Sostiene che facendo in modo che il modello si basi sull'”intelligenza collettiva della cultura e della società coreana”, può servire meglio gli utenti coreani e allo stesso tempo ridurre la dipendenza di Naver da altri servizi di intelligenza artificiale meno incentrati sull’Asia-Pacifico.
In un recente numero della sua newsletter Import AI, l’ex direttore delle politiche di OpenAI Jack Clark ha affermato che poiché i modelli generativi in ​​ultima analisi riflettono e amplificano i dati su cui vengono addestrati, le diverse nazioni si preoccupano molto di come la propria cultura è rappresentata in questi modelli. “[HyperCLOVA] fa parte di una tendenza generale di diverse nazioni che affermano la propria capacità [e] di intelligenza artificiale tramite modelli di frontiera di addestramento come GPT-3”, ha continuato. “[Aspetteremo] ulteriori dettagli tecnici per vedere se [è] veramente paragonabile a GPT-3.”

Alcuni esperti hanno sostenuto che, poiché le aziende che sviluppano sistemi di intelligenza artificiale influenti si trovano prevalentemente negli Stati Uniti, in Cina e nell’UE, una quota sproporzionata di benefici economici cadrà all’interno di queste regioni, esacerbando potenzialmente la disuguaglianza. In un’analisi delle pubblicazioni in due importanti conferenze di machine learning, NeurIPS 2020 e ICML 2020, nessuno dei primi 10 paesi in termini di indice di pubblicazione si trovava in America Latina, Africa o Sud-Est asiatico. Inoltre, un recente rapporto del Center for Security and Emerging Technology della Georgetown University ha  rilevato che mentre 42 dei 62 principali laboratori di intelligenza artificiale si trovano al di fuori degli Stati Uniti, il 68% del personale si trova negli Stati Uniti.

“Queste grandi quantità di intelligenza collettiva arricchiscono e fortificano continuamente HyperCLOVA”, ha affermato Sung. “Il modello linguistico iperscala più noto è GPT-3, ed è formato principalmente con dati in inglese, e viene insegnato solo lo 0,016% dei dati coreani rispetto all’input totale… [C] considerando l’impatto dell’IA iperscalabile sui settori e economie nel prossimo futuro, siamo fiduciosi che costruire un’IA basata sulla lingua coreana sia molto importante per la sovranità dell’IA della Corea”.

Sfide nello sviluppo di modelli
Tra gli altri, il principale ricercatore di intelligenza artificiale Timnit Gebru ha  messo in dubbio la saggezza di costruire modelli linguistici di grandi dimensioni, esaminando chi ne trae vantaggio e chi ne viene danneggiato. È risaputo che i modelli possono amplificare i pregiudizi nei dati su cui sono stati addestrati e gli effetti dell’addestramento dei modelli sull’ambiente sono stati sollevati come serie preoccupazioni.
Per affrontare le questioni relative ai pregiudizi, Sung afferma che Naver sta discutendo con “esperti esterni” tra cui ricercatori dell’Iniziativa per la politica sull’intelligenza artificiale della Seoul National University e prevede di formare un comitato consultivo sull’etica dell’intelligenza artificiale in Corea quest’anno. La società ha anche rilasciato un benchmark – Korean Language Understanding Evaluation (KLUE) – per valutare le capacità di comprensione del linguaggio naturale dei modelli di lingua coreana, incluso HyperCLOVA.

“Riconosciamo che mentre l’intelligenza artificiale può rendere la nostra vita comoda, non è nemmeno infallibile come tutte le altre tecnologie utilizzate oggi”, ha aggiunto. “Pur perseguendo la comodità nel servizio che forniamo, Naver cercherà anche di spiegare il nostro servizio di intelligenza artificiale in un modo che gli utenti possano facilmente comprendere su loro richiesta o quando necessario … Presteremo attenzione alla sicurezza durante tutte le fasi di progettazione e test dei nostri servizi, anche dopo l’implementazione del servizio, per prevenire una situazione in cui l’intelligenza artificiale come strumento quotidiano minacci la vita o causi danni fisici alle persone”.

Applicazioni del mondo reale
Attualmente, Naver afferma che HyperCLOVA viene sfruttato per vari servizi Naver tra cui Naver Smart Stores, il mercato di e-commerce dell’azienda, dove “corregge” i nomi dei prodotti generando nomi “più attraenti” rispetto agli SKU originali ottimizzati per i motori di ricerca. In un altro caso di utilizzo dell’e-commerce, Naver sta applicando HyperCLOVA per creare sistemi di raccomandazione dei prodotti su misura per le preferenze individuali degli acquirenti.

“Anche se HyperCLOVA non apprende in modo specifico i registri degli acquisti degli utenti, abbiamo scoperto che era in grado di consigliare in una certa misura i prodotti sul nostro mercato. Quindi, abbiamo messo a punto questa funzionalità e l’abbiamo introdotta come una delle nostre funzionalità di e-commerce. A differenza degli algoritmi di raccomandazione esistenti, questo modello mostra la capacità “generalizzata” di funzionare bene su articoli freddi, utenti freddi e servizi freddi”, ha affermato Sung. “Raccomandare un determinato regalo a qualcuno non è un problema adatto a risolvere il tradizionale machine learning. Questo perché non ci sono informazioni sul destinatario del regalo… [Ma] con HyperCLOVA, siamo stati in grado di rendere possibile questa esperienza”.

HyperCLOVA sta anche alimentando un servizio di chiamata basato sull’intelligenza artificiale per gli anziani che vivono da soli, che Naver afferma che prevede di perfezionare per fornire conversazioni più personalizzate in futuro. Oltre a ciò, Naver afferma che sta sviluppando una versione multilingue di HyperCLOVA in grado di comprendere due o più lingue contemporaneamente e un’API che consentirà agli sviluppatori di creare app e servizi in base al modello.

La pandemia ha accelerato la trasformazione digitale del mondo, spingendo le aziende a diventare più dipendenti dal software per semplificare i propri processi. Di conseguenza, la domanda di tecnologia del linguaggio naturale è ora più alta che mai, in particolare nelle aziende. Secondo un sondaggio del 2021 di John Snow Labs e Gradient Flow, il 60% dei leader tecnologici ha indicato che i loro budget per l’elaborazione del linguaggio naturale sono cresciuti di almeno il 10% rispetto al 2020, mentre un terzo – il 33% – ha affermato che la loro spesa è aumentata di oltre il 30%.


Si prevede che il mercato globale della PNL  aumenterà di valore fino a 35,1 miliardi di dollari entro il 2026.

“La cosa più interessante di HyperCLOVA è che la sua usabilità non è limitata solo agli esperti di intelligenza artificiale, come ingegneri e ricercatori, ma è stata utilizzata anche da pianificatori di servizi e responsabili aziendali all’interno della nostra organizzazione. La maggior parte dei vincitori [in un recente hackathon HyperCLOVA] proveniva da posizioni di sviluppatore non AI, il che credo dimostri che la piattaforma AI senza codice di HyperCLOVA consentirà a tutti di disporre di capacità AI, accelerando significativamente la velocità della trasformazione AI e cambiando il suo ambito nel futuro.”

 

Di ihal