Più dati, più problemi: lezioni dal diluvio di dati di Meta
Facebook genera 4 petabyte o un milione di gigabyte di dati ogni giorno, mentre gli utenti di WhatsApp si scambiano quasi 65 miliardi di messaggi al giorno.
 
Ai tempi, quando Mark Zuckerberg ha lanciato la struttura scheletrica di base di Facebook, i fondatori dell’azienda hanno formulato un’ipotesi per giudicare i progressi che il sito stava facendo: se un nuovo utente si faceva sette nuovi amici entro i primi dieci giorni, era un buon cartello. Il team è giunto alla conclusione dopo continue sperimentazioni per influenzare la metrica e misurare il risultato per dimostrare un legame tra i due. 

Apparentemente semplici, i numeri duri finali a cui è arrivata la squadra erano dati preziosi. Durante questo periodo, Facebook era un social network nella sua forma più genuina. 

 
Nel 2021, Facebook si era evoluto in Meta , a simboleggiare la brusca svolta che aveva preso per costruire un metaverso . Il marchio Meta ora sarebbe proprietario di Facebook, Instagram e dell’applicazione di messaggistica istantanea più popolare al mondo, WhatsApp. Mentre l’attuale Facebook lotta con uno spazio sempre più competitivo e una minore spesa pubblicitaria, il sito Web ha ancora 2,94 miliardi di utenti attivi mensili. 

Fonte: Statista, Social network più popolari a gennaio 2022 per numero di utenti attivi mensili
Secondo un rapporto pubblicato nel 2020, Facebook generava 4 petabyte o un milione di gigabyte di dati ogni giorno. Gli utenti di WhatsApp si scambiavano quasi 65 miliardi di messaggi al giorno. Il diluvio di dati di tutte le app di rete di proprietà di Facebook ha contribuito a creare una miniera di big data. 

Mentre Meta cerca di costruire il suo metaverso tanto pubblicizzato , mentre Facebook tenta di trovare un appoggio tra app social “più giovani” come TikTok e Snapchat, i detrattori accusano il gigante della tecnologia di essere “senza anima”. Quindi la più grande piattaforma di social networking è davvero riuscita a perdere base con i suoi consumatori? 


Big data, grandi modelli
L’ex capo dell’analisi di Facebook, Ken Rudin , ha spiegato la dipendenza dell’azienda dai dati dicendo: “I Big Data sono fondamentali per l’essere dell’azienda”. 

La percezione iniziale che più dati potessero solo significare una migliore analisi, si adattava perfettamente all’accesso ai dati di Facebook. Più dati aiutano con l’addestramento dei modelli di intelligenza artificiale introducendo più funzionalità nei set di dati. Più sono le variabili, più ricchi sono i set di dati per addestrare i modelli di IA. I set di dati aggiungono più materie prime che possono essere utilizzate come funzionalità. Inoltre, fornisce più campi che possono essere combinati in seguito per creare variabili derivate. 

Man mano che i modelli ML crescevano in scala, la tendenza era che diventassero più capaci e più accurati. E con questo, sono entrati in scena modelli linguistici di grandi dimensioni o LLM . Le aziende hanno iniziato a correre per costruire il modello linguistico di grandi dimensioni più grande senza limiti superiori al numero di parametri. L’anno scorso, in ottobre, NVIDIA e Microsoft hanno introdotto Megatron-Turing NLG con 530 miliardi di parametri. Questo è stato rapidamente salutato come “il più grande e potente modello di linguaggio generativo”. 

Fonte: faccia che abbraccia, i più grandi modelli linguistici di grandi dimensioni
Big data significa qualità? 
Per le grandi aziende tecnologiche con tasche profonde, acquisire dati e addestrare questi modelli significava spendere quasi 100 milioni di dollari, il che ha funzionato bene per loro sul fronte costi-benefici. Per Meta , che era un archivio di dati, sarebbe ancora più naturale costruire modelli linguistici di grandi dimensioni. Ma il problema con i modelli linguistici di grandi dimensioni era questo: più parametri non si traducevano necessariamente in modelli più efficienti. Anche se non c’è chiarezza assoluta sull’alchimia di buoni modelli di intelligenza artificiale, c’era molta logica per giustificare che le dimensioni non sono tutto. 

Secondo Julien Simone , capo evangelista della piattaforma open source Hugging Face , i modelli ML funzionano come il cervello umano che ha una media di 86 miliardi di neuroni e 100 trilioni di sinapsi. Prevedibilmente, non tutti i neuroni sono dedicati al linguaggio. Al contrario, il tanto discusso GPT-4 dovrebbe avere circa 100 trilioni di parametri. Simon afferma che, proprio come la legge di Moore con l’industria dei semiconduttori, anche i modelli linguistici di grandi dimensioni stanno iniziando a mostrare risultati simili. Più grande è il modello, maggiori sono i costi e i rischi, minori i rendimenti e maggiore è la complessità. 

Chat di Blender Bot, Fonte: about.fb.com
I grandi modelli di Meta
Nonostante tutto il respingimento, il calore attorno ai grandi modelli linguistici è rimasto in qualche modo vivo. Fino a maggio di quest’anno, Meta ha rilasciato il suo Open-Pretrained Transformer o OPT-175B per abbinare il GPT3 di Google , che ha anche 175 miliardi di parametri. Il nuovo modello è stato addestrato su 800 gigabyte di dati. 

La scorsa settimana, Meta ha rilasciato un prototipo di chatbot BlenderBot3 , basato su OPT-175 miliardi. Il modello per la versione aggiornata era 58 volte più grande del BlenderBot 2, ha scritto Meta nel suo blog. Meta ha rilasciato il chatbot al pubblico per raccogliere feedback e nel giro di pochi giorni BlenderBot 3 aveva rilasciato diverse dichiarazioni false e sconcertanti nelle sue conversazioni con il pubblico. Per uno, ha descritto Meta CEO come “troppo inquietante e manipolatore”. In secondo luogo, ha affermato come verità le teorie del complotto antisemita e poi ha affermato di ritenere ancora che Trump fosse il presidente degli Stati Uniti. Sebbene impressionanti per la loro scala, questi modelli linguistici di grandi dimensioni hanno un software difettoso che si insinua. 

Ridurre
Tuttavia, Meta potrebbe finalmente cambiare la sua melodia. Un paio di giorni fa, i ricercatori di Meta AI Surya Ganguli e Ari Morcos hanno pubblicato un documento intitolato “Oltre le leggi di ridimensionamento neurale: battere il ridimensionamento della legge di potenza tramite la potatura dei dati”. Il documento dimostra che la raccolta indiscriminata di una grande quantità di dati non curati può essere altamente inefficiente. Lo studio suggerisce che la qualità dei dati può essere migliorata drasticamente utilizzando un nuovo metodo non supervisionato di classificazione dei dati. Questo nuovo approccio è più economico, più semplice e una tecnica scalabile che dimostra livelli di efficienza simili a metodi supervisionati più costosi. 


Atlas, il modello linguistico di grandi dimensioni appena rilasciato di Meta AI addestrato su attività di risposta alle domande e verifica dei fatti, è la prova che l’azienda potrebbe ritirarsi dalla costruzione di modelli più grandi. Il modello ha raggiunto una precisione del 42% sulle domande naturali sulla base di soli 64 esempi, battendo il PaLM di Google AI , un modello di 540 miliardi di parametri. Nonostante sia stato addestrato su 50 volte meno parametri rispetto a PaLM , Atlas ha superato gli altri del 3%. 

Futuro dell’utilizzo dei dati
I big data possono essere una benedizione o essere ingombranti e confusi. Nel caso di Meta, il cambio di direzione non ha necessariamente contribuito ad alleggerire il peso. Un rapporto di Credit Suisse ha affermato che il passaggio al metaverso spingerà l’utilizzo dei dati di 20 volte in tutto il mondo entro il 2032. Nel frattempo, Meta continua a costruire modelli che si adatterebbero al loro metaverso . La differenza tra l’approccio basato sui dati di Facebook dei suoi tempi antichi è che alla fine è diventato un approccio più basato sui dati dalla sua esplosione come social network. I dati non sono certo un problema per Meta, ma potrebbero dover imparare di nuovo le lezioni su come usarli bene. 

Di ihal