Diventerà più strano con l’ascesa di modelli linguistici di grandi dimensioni
“Molte aziende povere di calcolo diventeranno esistenzialmente dipendenti dai modelli ML delle aziende ricche di calcolo, che saranno i nuovi guardiani della piattaforma del prossimo decennio”, twitta Russel Kaplan.

Il mese scorso, DeepMind ha pubblicato un documento, ” Training Compute-Optimal Large Language Models “, che parla di come OpenAI, DeepMind, Microsoft, ecc., hanno addestrato grandi modelli linguistici con un uso del calcolo profondamente non ottimale. DeepMind ha anche proposto nuove leggi di ridimensionamento per un uso ottimale del calcolo e ha addestrato un nuovo modello di 70 miliardi di parametri che supera modelli linguistici molto più grandi, inclusi GPT-3 (175 miliardi di parametri) e Gopher (270 miliardi di parametri).

Reagendo ad alcuni recenti sviluppi riguardanti i modelli linguistici di grandi dimensioni, Russel Kaplan , Head of Nucleus di ScaleAI, ha scritto una serie di tweet sull'”effetto di secondo ordine” dell’ascesa dei modelli linguistici di grandi dimensioni. Spezziamo il filo. 


Paga le tasse alle aziende che creano modelli linguistici di grandi dimensioni

Russel ha affermato nel suo thread su Twitter che le aziende che producono prodotti potrebbero dover incorporare l’intelligenza nei loro enormi modelli linguistici, come aggiungere Copilot a VSCode, DALL.E 2 a Photoshop o GPT-3 a Google Docs. Queste aziende potrebbero dover disporre dei propri modelli linguistici di grandi dimensioni o pagare le tasse per utilizzarli da OpenAI, Google, ecc.

Questo tweet può essere decodificato con un documento scritto dalla ricercatrice di intelligenza artificiale Timnit Gebru e dai suoi collaboratori intitolato “Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi?” Questo documento discute la varietà di costi e rischi associati a modelli linguistici più ampi.  

Un calcolo scadente dipenderà da un calcolo avanzato 

Russel ha affermato che lo sviluppo di modelli linguistici di grandi dimensioni potrebbe creare un divario tra le società tecnologiche, in cui le società ricche di elaborazione potrebbero diventare guardiani della piattaforma facendo sì che le società povere di elaborazione dipendano da loro per i modelli ML. Come il modo in cui Epic Games, Zynga, ecc., sono stati espulsi dai grandi giganti della tecnologia, i prodotti delle aziende più piccole potrebbero non funzionare per mancanza di modelli linguistici.

Potere sulle risorse principali  

Inoltre, il tweet di Kaplan parlava di come le aziende ricche di computer possano proteggere in modo aggressivo la loro catena di approvvigionamento, come chip di silicio, ecc., Citando l’intenzione di Elon Musk di acquistare i diritti di estrazione del litio per garantire una fornitura continua di materia prima alle batterie dei suoi veicoli elettrici. Il litio è la materia prima chiave per la produzione di batterie per veicoli elettrici agli ioni di litio e Tesla, la più grande azienda produttrice di veicoli elettrici al mondo, sta affrontando una carenza di questa materia prima. Il CEO di Tesla, Elon Musk , ha espresso preoccupazione per l’aumento del prezzo del litio in un recente tweet e ha suggerito che Tesla potrebbe entrare nel settore minerario per aiutare a risolvere questa carenza.


Parlando ulteriormente della sicurezza della catena di approvvigionamento, Russel menziona come le aziende di intelligenza artificiale stiano progettando i loro chip di formazione anziché acquistare da NVIDIA, ottenendo un profitto con un margine lordo del 65%. In effetti, NVIDIA, nel suo rapporto sulla tesi di investimento , ha dichiarato che il loro margine lordo è del 65% e che si sono resi conto che i loro chip si adattano perfettamente all’elaborazione di grandi quantità di dati richiesti nelle applicazioni di intelligenza artificiale.

Collegamento alla sicurezza nazionale

Il thread di Russel diceva che il governo investirà presto per avere un’infrastruttura computazionale per addestrare i più grandi modelli linguistici, che diventeranno essenziali per la sicurezza nazionale. Ci sono anche possibilità di avere un nuovo progetto Manhattan per il supercalcolo AI. 

Il progetto Manhattan riguarda il governo degli Stati Uniti che chiede al produttore di supercomputer Cray di costruire un computer exascale per eseguire soluzioni complesse per replicare i test sulle armi nucleari senza far esplodere uno.

AI RSC di Facebook

Russel ha inoltre twittato sulla spesa in vari settori, come il modo in cui l’AI RSC di Facebook è stato sviluppato con una spesa in conto capitale di $ 1 miliardo; il progetto originale di Manhattan era di circa $ 30 miliardi e i progetti di corse spaziali di circa $ 250 miliardi.  

Grandi modelli linguistici per annunciare nuovi motori di ricerca

Quindi, Russel ha parlato di come i modelli linguistici generativi sostituiranno i motori di ricerca. In futuro, l’utente non dovrà cercare nulla su Google; invece, le informazioni saranno incorporate nel prodotto che l’utente sta utilizzando. Facendo un esempio di Copilot in GithHub, ha affermato che potrebbero esserci molte implicazioni in questa tendenza. Decodificando il tweet, un articolo pubblicato da MIT Technology Review su “I modelli linguistici come GPT-3 potrebbero annunciare un nuovo tipo di motore di ricerca” parla di utenti che chiedono a un modello linguistico addestrato di cercare e rispondere direttamente invece di cercare informazioni sul web pagine. 

Royalty invece di licenza

Russel ha inoltre twittato che in futuro, le proprietà web con contenuti generati dagli utenti richiederanno royalties invece di concederle in licenza quando i loro dati verranno utilizzati per addestrare modelli di intelligenza artificiale. La richiesta di royalty è stata scritta in un articolo di ricerca pubblicato da The Royal Society Publishing, intitolato “Algoritmi che ricordano: attacchi di inversione del modello e legge sulla protezione dei dati”. Molte grandi aziende offrono già modelli formati per vari compiti e i due principali modelli di business sono alla base di questa pratica. Il primo riguarda la concessione in licenza di API (Application Programming Interface) tramite piattaforme simili a “App Store”, e l’altro è che le aziende guadagnano royalties quando i loro modelli vengono distribuiti. 

Massimizzare la probabilità dei log invece della SEO

Kaplan ha discusso le implicazioni dell’ottimizzazione dei motori di ricerca, affermando che invece della SEO, i marketer massimizzeranno la probabilità di log dei loro contenuti generati da un modello ML che potrebbe avere attacchi di avvelenamento dei dati. Inoltre, Russel ha twittato di aver visto gli output sponsorizzati per i modelli linguistici in cui gli inserzionisti pagheranno per condizionare gli output dei modelli sui loro prodotti. Ci saranno più ricerche su v2AdWords e verranno generati annunci anziché posizionamento nella ricerca. Russel ha concluso che tutti questi sviluppi ci porterebbero solo in una situazione strana.

Le reazioni di Twitterati si dividono sui tweet di Russel .

Reagendo al thread di Twitter di Russel, un investitore con sede a Boston Dan MacDade non è d’accordo e ha accettato alcuni dei tweet. Dan ha affermato che i modelli linguistici di grandi dimensioni non saranno solo di proprietà delle grandi tecnologie, ma che anche l’OSS li sostituirà.  


Tuttavia, Igor Brigadir, CTO di recsyslabs, ha twittato a sostegno; ha detto che Russel l’aveva appena inchiodato e che qualunque cosa avesse twittato si sarebbe avverata.


Leggendo il thread di Twitter, molti hanno risposto dicendo che è stato un toccasana per i modelli linguistici di grandi dimensioni. Sebbene ci siano reazioni contrastanti, a molti è piaciuta la metodologia di ricerca di tali istanze e di metterle in pratica. Hanno anche suggerito di creare un forum per discutere di tali argomenti. 

Di ihal