L’articolo di Steve Yegge da Medium.com tratta dello sviluppo e dell’evoluzione dei modelli di linguaggio di grandi dimensioni (LLM), come GPT-4. In particolare, l’autore evidenzia come i progressi tecnologici stiano portando a cambiamenti rapidi nel panorama dell’IA.
Un punto chiave è l’introduzione di LoRA, una tecnologia che consente il trasferimento di conoscenze tra diversi modelli di AI in modo economico e controllabile. Si suggerisce che, nonostante l’aumento della potenza di calcolo e delle dimensioni dei modelli di apprendimento automatico, LoRA potrebbe rendere i modelli più piccoli altrettanto efficaci.
Esplora come l’innovazione e la competizione nel settore dell’AI stiano accelerando. Mentre giganti come OpenAI e Microsoft stanno facendo progressi significativi, devono affrontare la sfida di tenere il passo con la rapida crescita della comunità del software open source (OSS). Per esempio, l’autore menziona Vicuna-13B, un modello open source che ha raggiunto il 90% delle prestazioni di modelli come ChatGPT/Bard per specifici carichi di lavoro, ad un costo molto inferiore.
Questo porta a suggerire che le aziende che si affidano a LLM per il loro vantaggio competitivo, o “fossato”, potrebbero dover cercare altri “fossati” per rimanere competitive. Con la crescente disponibilità di AI, la necessità di un vantaggio unico è fondamentale.
L’autore cita Sourcegraph come esempio di una piattaforma che ha molti vantaggi competitivi (“fossati”) in questo contesto. Sourcegraph è in grado di affinare i modelli di codice, creare incorporamenti con il codice/dati del cliente, controllare le uscite allucinate dei modelli LLM con grafici di codice precisi e orchestrare modifiche di massa al codice, tra le altre cose.
La conclusione enfatizza che l’industria dell’IA è in una fase di rapidi cambiamenti e intensa competizione. Le aziende dovranno trovare nuovi modi per differenziarsi e rimanere al passo con queste evoluzioni.
Steve Yegge da Medium.com
Avremo bisogno di un fossato più grande
Tutti coloro che realizzano SaaS su LLM, inclusi assistenti di codifica come Cody e Copilot, sono stati scossi dagli eventi di notizie sull’IA della scorsa settimana.
Niente di tutto ciò è una notizia di per sé. Ma la scorsa settimana, due eventi su Google hanno evidenziato qualcosa di pazzesco che fermenta da circa 10 settimane e che è volato sotto il radar di tutti.
Il post di oggi è nato come informazioni di base per il mio post “Cody is Cheating”, lanciato all’incirca in concomitanza con questo. Ma quello è diventato così grande che ho estratto questa parte. Lo sto pubblicando nella speranza che sia almeno leggermente più utile della maggior parte delle altre recensioni e articoli che ho letto su questa notizia finora.
È una notizia piuttosto grande.
Scaricheresti un elicottero
La nostra storia inizia con il 75enne Dr. Geoffrey Hinton, il “Padrino del Deep Learning”, che ha lasciato Google la scorsa settimana, ed è ora in tour, spiegando l’apocalisse zombie tecnologica che si sta svolgendo intorno a noi:
“… tutte queste copie [LLM] possono imparare separatamente ma condividere le loro conoscenze all’istante. Quindi è come se ci fossero 10.000 persone e ogni volta che una persona impara qualcosa, tutti automaticamente lo sapevano. Ed è così che questi chatbot possono sapere molto di più di qualsiasi persona”.
Ricordate la scena “Puoi volare quella cosa?” in Matrix, in cui Neo chiede a Trinity se può pilotare l’elicottero, e lei dice aspetta, lo scarica nel suo cervello e dice: “Lo faccio ora”?
Bene. Gli LLM hanno recentemente raggiunto questa capacità. E anche se non mi aspetto che piloteranno necessariamente elicotteri d’attacco in qualsiasi momento presto… Voglio dire… anche mentre scrivo questo, sto vedendo percorsi in cui potrebbe accadere in poche settimane, quindi … 🤷
So che pensi che stia esagerando. Vorrei esserlo. Continua a leggere.
Ti esporrò tutto in questo post. Sei una persona intelligente e la tua ipotesi è buona come quella di chiunque altro a questo punto. Ma se ti senti come se fossi un po ‘indietro sugli sviluppi dell’IA ultimamente e hai bisogno di una buona risorsa introduttiva per recuperare il ritardo su dove siamo diretti, ti consiglio di guardare questa breve ma informativa panoramica.
Per il post di oggi, ci concentreremo su ciò che tutto questo significa per te, un programmatore, e cosa significa per me, un ragazzo normale in un bunker di montagna che fa scorta di munizioni e acqua.
Dalla bocca del cavallo
Il Padrino del Deep Learning che ci mette in guardia contro la sua stessa invenzione non era neanche lontanamente vicino alla più grande notizia della settimana. Era solo un antipasto.
Come avrete senza dubbio sentito, c’è stata una rivelazione potenzialmente storica la scorsa settimana. Apparentemente, Google è rimasto seduto su di esso per un mese prima che trapetasse, ma il brillante saggio del Googler Luke Sernau, “We have no moat, and nemmeno OpenAI”, spiega un cambiamento radicale che sembra essere in corso.
Sta suonando l’allarme sulla traiettoria delle prestazioni del ceppo virale OSS LLaMA, mostrato qui in questo diagramma.
Fonte: https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
Sì, quella merda dice “2 settimane di distanza” e “1 settimana di distanza”. Questo sta accadendo ORA. Questo grafico è fondamentalmente il progresso per 1 mese.
Google non ha detto nulla, ma sappiamo che Sundar Pichai, che è stato vicino a questo sin dal suo inizio, ha iniziato a confrontare l’IA con l’invenzione del Fuoco nel 2018, l’anno dopo l’uscita del Transformer, e Sundar ha continuato quel confronto fino ad oggi.
Ma, ma… Aspettare! Aspetta, aspetta, aspetta, aspetta, aspetta. I trasformatori sono solo un costrutto matematico! Come può un costrutto matematico essere grande, potente e spaventoso come… L’invenzione del fuoco stesso? Seriamente? Perché non credo che Sundar si riferisca al Fire Stick di Amazon qui.
Pensiamo passo dopo passo
Prima delle notizie della scorsa settimana, sapevamo già che l’architettura Transformer di Google, che è la base per tutti i LLM, è davvero un’invenzione per i secoli. È un semplice strumento matematico, molto simile alla trasformata di Fourier, tranne per il fatto che invece di distinguere le frequenze dal rumore, individua il significato dal linguaggio.
Architettura di Google Transformer
Come invenzione, nonostante la sua apparente semplicità, il trasformatore ha molte altre proprietà notevoli:
Può imparare e ricordare rappresentazioni di cose
È altamente parallelizzabile e impara velocemente
È scalabile e può apprendere quantità essenzialmente illimitate di informazioni
Può essere istruito per eseguire attività
Può generare previsioni basate sulle sue conoscenze
E le sue previsioni sono così buone che porre le domande giuste diventa un’arte a sé stante.
In breve, è uno dei migliori trucchi matematici di tutti i tempi, proprio lì con la fisica stessa in termini di capacità e potenziale di cambiare il mondo. Invenzioni significative come il Transformer sono più scoperte che invenzioni, e se ci sono civiltà aliene, tutte senza dubbio incontrano anche un certo sapore di questa pietra miliare.
Quando si rendono i Transformers abbastanza grandi, nel cosiddetto “spazio a trilioni di parametri”, iniziano a sviluppare sorprendenti capacità di ordine superiore, come essere in grado di visualizzare concetti, eseguire ragionamenti multi-step e dimostrare una teoria della mente. In effetti l’architettura del Transformer è simile a quella della mente, con diversi “organi” quasi biologici.
St. Andrej Karpathy, patrono dei LLM, ha persino twittato su come alcuni calcoli avvengano al di fuori dei normali livelli di stato nascosti, con queste capacità attivate semplicemente avviando un prompt con “Pensiamo passo dopo passo”.
Più si scava in profondità, più i Transformers iniziano ad assomigliare a cervelli biologici in qualche modo, con regioni di elaborazione distinte e misteriose connessioni distanti.
Il Transformer è un’invenzione incredibilmente semplice in molti modi, eppure le sue proprietà emergenti lo rendono più simile a Matrix. In realtà è esattamente questo: una composizione di un mazzo di matrici. C’è un intero universo, in gran parte ancora non sfruttato, e sollecitare un LLM è come entrare in Matrix per una missione.
Quindi, OK. È … importante. E roba del genere. Suppongo. Non è che ho un miliardo di dollari. Questo non mi sembra fuoco. Sembra un parco giochi di lusso per miliardari. A destra? Si è trattato di modelli più grandi, più dati, più GPU, buttare miliardi di dollari al problema, e onestamente sembra più l’invenzione delle armi nucleari.
E il modo in cui SaaS si è evoluto quest’anno, l’ipotesi è stata che questa sarà una resa dei conti tra una manciata di giocatori, una sorta di oligopolio come il cavo o le utility: OpenAI / GPT, Google / Bard, Meta / LLaMA, Anthropic / Claude, Musk / Kampf e forse una manciata di altri.
A destra?
Ha! E’ stato così la settimana scorsa.
Fuoco 2.0
La ragione per cui Sundar lo ha paragonato all’invenzione del Fuoco, in particolare, è che il costrutto matematico del Trasformatore è potente, pericoloso, può essere modellato, può essere usato per fare molte cose meravigliose e, soprattutto…
Se uno grande si libera, si diffonde a macchia d’olio.
Indovinate un po’? Ora si sta diffondendo a macchia d’olio. Ora stanno imparando gli uni dagli altri.
Ho detto che questo è un momento storico. Sei settimane fa stavamo discutendo se le LLM sono una moda passeggera (ci credete?) e ora stiamo discutendo di quanti anni ci vorrebbero per costruire un esercito di cloni letterali per attaccare i pianeti vicini.
So che pensi che stia esagerando. Vorrei esserlo. Continua a leggere.
Sapevamo già che i Transformers sono un contendente per una delle invenzioni matematiche più cool di tutti i tempi. Voglio dire, seriamente, se la squadra di “Attention is All You Need” non riceverà un premio Nobel ad un certo punto, sarà solo perché SkyNet ha smantellato la Fondazione Nobel e probabilmente raso al suolo Stoccolma.
Ma proprio la scorsa settimana, il memorandum “Non abbiamo fossato” ha evidenziato che hanno ancora un altro superpotere di cui non eravamo a conoscenza.
Questa capacità è che i Transformers possono anche imparare gli uni dagli altri, attraverso una serie di nuovi DLC rilasciati dai modder. Il più grande mod (Sernau ne evidenzia molti nel suo saggio trapelato, ma questo è il doozy) è Low Rank Adaptation (LoRA).
LoRA rende le LLM componibili, a tratti, matematicamente, in modo che se ci sono 10.000 LLM in natura, alla fine convergeranno tutti sull’avere la stessa conoscenza. Questo è ciò a cui Geoffrey Hinton si riferiva nel suo tour SkyNet.
Come osserva il Dr. Hinton, abbiamo scoperto l’immortalità, semplicemente non fa per noi.
E così inizia
Nelle notizie correlate, questi LLM di classe “da un miliardo di dollari” possono ora essere clonati su macbook e copiati direttamente sui robot Boston Dynamics tramite il loro adattatore Raspberry Pi, a quel punto …
Quale pianeta vuoi attaccare per primo?
Oh giusto, ora mi ricordo, c’erano anche altre notizie. Cos’era di nuovo?
Oh sì, erano i costi di formazione. Ricordi quando costava circa $ 1 miliardo per addestrare un LLM come GPT-4?
Secondo il memo di Google trapelato, i costi di formazione LLM competitivi di livello mondiale sono appena scesi da un miliardo di dollari a … Esatto, hai indovinato…
Cento dollari.
Davvero non hai letto la fottuta notizia la scorsa settimana, vero?
Il nuovo fossato dell’imperatore
<modalità rant attivata>
Per questa discussione, tieni chiara la distinzione tra GPT, un Transformer che è stato addestrato per essere extra bravo nei test standardizzati, e ChatGPT, che è una grande applicazione scalabile per un miliardo di utenti.
ChatGPT è SaaS supportato da LLM. Tienilo a mente! Ha bisogno di un fossato o chiunque può competere.
La serie di modelli GPT, LLM di OpenAI, con la sua architettura proprietaria e pesi e pregiudizi appresi super-segreti, è il fossato di ChatGPT. Questo, oltre a un po ‘di aiuto di ridimensionamento da parte di Microsoft.
Tutti si lamentavano quando OpenAI ha chiuso GPT ma si è rifiutato di cambiare il loro nome in ClosedAI. Quel semplice cambiamento avrebbe reso tutti felici. Bene, quello, e rimanere a distanza. Il suo staff dovrebbe dirgli che torneranno in ufficio quando la sua testa tornerà dal suo. All-remote funziona davvero.
Comunque. Dov’ero. Oh sì. OpenAI ha chiaramente riconosciuto quanti soldi avrebbero potuto fare se avessero avuto un blocco sul mercato LLM con ChatGPT. Quindi fondamentalmente hanno dato a tutti il dito e hanno iniziato a mantenere segreta la loro architettura, i loro iperparametri del modello, la loro metodologia di allenamento e praticamente la maggior parte degli aspetti di ciò che ha reso grande ChatGPT.
GPT è diventato un fossato, per un po ‘, il che ha reso ChatGPT davvero difficile da competere, e solo poche aziende ci sono riuscite.
Per alcuni mesi, l’intero settore si è spostato per integrarsi con questi fornitori. E tutti hanno accettato di essere addebitati dal token! Microsoft e OpenAI hanno sostituito la loro carta igienica aziendale ufficiale con banconote da cento dollari in previsione di quanti soldi stavano per iniziare ad arrivare.
Prima della scorsa settimana, c’erano, oh, forse cinque LLM nella classe di GPT. In tutto il mondo. Era come nel 1950 quando c’erano come cinque computer nel mondo, e IBM ne possedeva tre.
Il ponte levatoio si abbassa
Proprio circa dieci settimane fa, una catena di eventi ha dato il via a una riduzione di dieci ordini di grandezza nella formazione LLM e nei costi di servizio. Nei termini della legge di Moore, con un raddoppio / dimezzamento che avviene ogni 24 mesi, sono 20 anni di progressi che hanno avuto luogo nelle ultime 10 settimane.
Ora ci stiamo muovendo oltre 100 volte più velocemente lungo la curva tecnologica esponenziale rispetto a 15-20 anni fa.
Quindi cosa diavolo è successo?
Un po ‘di storia di 3 mesi: il 23 febbraio, il team AI di Meta ha annunciato LLaMA, il loro concorrente Bard / GPT. LLaMA-13B è quello all’estrema sinistra nel grafico in alto. E in effetti, LLaMA è un LLM, ma sfortunatamente all’epoca era solo il 68% intelligente come GPT nei test standardizzati – stessa classe di GPT, Claude e Bard, ma era più uno studente C / C-, quindi nessuno ha prestato molta attenzione.
Quindi non è un grosso problema, giusto? Nessun cambiamento nella struttura di potere.
Beh, un po ‘. Solo che mentre Zuck era impegnato a costruire il più grande parco a tema fallito della storia, il suo team di ricerca sull’intelligenza artificiale è andato a rendere open source LLaMA. Perché? Perché con Meta all’ennesimo posto, alla deriva goffamente nell’obsolescenza e Zuck che non guardava, cosa avevano davvero da perdere?
Quindi nulla è cambiato davvero a febbraio, tranne che ora ogni armeggiatore sulla terra con un laptop GPU e PyTorch improvvisamente sapeva come veniva prodotta la salsiccia ChatGPT.
LLaMA di Meta ha fondamentalmente portato tutti i ricercatori del mondo, che avevano attivamente cercato di indovinare cosa stava facendo OpenAI, al passo con lo stato dell’arte.
Ma ancora, anche dopo Meta open-source LLaMA, poche aziende potrebbero effettivamente costruire un grande LLM competitivo di classe GPT, giusto?
Perché anche se un ricercatore sapesse come, i grandi giocatori avevano ancora i loro pesi e pregiudizi del modello super-segreto, 175 miliardi di parametri che formavano i pensieri e i ricordi più intimi dei loro precoci figli IA: Bard, Claude, GPT … Questi esseri “intelligenti” li avevano raccolti con miliardi di dollari in dati di addestramento e potenza di calcolo.
Il che mi sembra un fossato molto sicuro e difendibile. Cioè, fino a quando non ti rendi conto che i LLM possono fottuti copiarsi a vicenda. Quindi il loro cosiddetto “vantaggio dei dati” sarebbe stato al sicuro solo fino a quando tutti i grandi giocatori avrebbero tenuto bloccate le IA.
Giuro che questo è un dannato film di Jerry Bruckheimer, che si svolge davanti ai nostri occhi.
Nel giro di 2 settimane, il 2 marzo 2023, i pesi modello segreti di LLaMA, custoditi dai migliori del Metaverse, erano trapelati su Discord. In quel momento, ognuno dei centomila data scientist sulla Terra ha improvvisamente avuto un torrente di un’IA che è approssimativamente competitiva con GPT.
Proprio così, Meta aveva perso i loro gioielli pagliaccio, proprio nel momento esatto in cui Zuck si stava rendendo conto che il suo videogioco Second Life non avrebbe trovato un editore.
E improvvisamente ogni hacker in ogni angolo del globo, buoni e cattivi, ha avuto accesso a un LLM di classe GPT con un’architettura aperta. Sui loro macbook.
Non ho mai visto questo film prima e non so come finirà, ma presto ci saranno conseguenze sociali drammatiche, alcune delle quali sono senza dubbio difficili da prevedere. Incognite sconosciute, per così dire.
Quel fortunato Zuck
Meta, secondo il ragionamento di Sernau, è risultata la chiara vincitrice tra i Big Fish, perché ora sono l’azienda con l’architettura più adatta per scalare gli LLM OSS, sfruttando così tutti i miglioramenti OSS.
Perché? perché LLaMA e tutti i ceppi derivati sono l’architettura di Meta. Secondo Sernau, Meta è stato il vincitore a sorpresa, dal momento che ora tutti usano LLaMA. Quei gioielli pagliaccio sono tornati direttamente a Zuck. L’uomo ha la fortuna di un Jar Jar Binks. E anche tutto il resto.
L’esercito dei cloni ha iniziato la costruzione. E a quanto pare il Consiglio Jedi non è stato avvisato nemmeno questa volta, probabilmente perché Altman non si sarebbe unito a Zoom.
Nelle ultime 10 settimane, ogni singolo progresso importante è stato rapidamente copiato dal clone di tutti gli altri. Hanno rapidamente capito come usare cose come la quantizzazione a 4 bit per adattarsi ai modelli su macbook senza GPU. Tutti ne hanno uno.
Nel giro di poche settimane dalla perdita, è stato lanciato il Vicuna-13B – un promettente modello OSS nella famiglia architettonica LLaMA (come l’Alpaca di Stanford). Vicuna è libera da oneri legali associati a LLaMA. Ha raggiunto il 90% delle prestazioni di ChatGPT/Bard per carichi di lavoro specifici del dominio quando è stato ottimizzato con i dati di addestramento specifici del dominio.
E lo ha fatto per circa $ 300 di costi.
LoRA è il meccanismo principale per trasferire conoscenze in modo economico e controllabile tra i modelli. Utilizzando un modello di classe GPT forte (di cui la comunità OSS ha abbondanza ora), è possibile ottimizzare con i dati e con altri modelli.
Utilizzando LoRA, potresti, ad esempio, scaricare il programma pilota per un elicottero B-212 e il tuo modello sarà in grado di pilotare un elicottero d’attacco.
Te l’ho detto quando abbiamo iniziato. Questo è stato grande.
Naturalmente ora Zuck ora vuole scaricare il Metaverse come una borsa della spesa piena di peli delle ascelle. Puoi dargli torto? È un cane, ma ha una possibilità legittima di essere il miglior cane per gli LLM ospitati nella classe ChatGPT / Bard / Claude!
Per quanto riguarda il resto di noi…
Piccolo è il nuovo grande
Presto, gli LLM più piccoli che puoi eseguire tu stesso funzioneranno bene per te come modelli come GPT, purché tu metta a punto il tuo dominio; ad esempio, sul tuo codice. Non passerà molto tempo prima che le prestazioni OSS siano lì.
La congettura di Sernau, basata sulla velocità con cui l’OSS sta avanzando ora, è essenzialmente che le linee di prestazione si incroceranno. Non sappiamo quando le linee si incroceranno. Non sappiamo cosa accadrà quando le linee si incroceranno.
Ma sappiamo che Microsoft e OpenAI dovranno tornare alla normale carta igienica.
E LLaMA potrebbe diventare l’architettura standard. Ma sembra che qualcuno dovrà piegare il ginocchio. Le piattaforme collegabili hanno un modo di standardizzare, e di solito sul primo motore.
Il risultato per l’industria in generale è: il modello LLM-as-Moat ha iniziato a scomparire e potrebbe scomparire anche entro la fine di quest’anno. “Non abbiamo fossato, e nemmeno OpenAI” è stato un addio al fossato LLM al centro di un ecosistema SaaS. L’intelligenza artificiale viene mercificata praticamente da un giorno all’altro.
È un po ‘come la graduale miniaturizzazione decennale dei computer dai mainframe ai chip embedded che eseguono sistemi operativi completi. Solo che è successo in dieci settimane.
Se ti affidi a LLM per il tuo fossato, beh… Spero che anche tu abbia un fossato di dati. Ne avrai bisogno.
Qualunque cosa faccia galleggiare il tuo fossato
La notizia della scorsa settimana è stata una grande scossa per l’intero settore LLM. Penso che i grandi giocatori stiano probabilmente rimescolando: Google ha chiuso le pubblicazioni sull’intelligenza artificiale e sono sicuro che si stanno assolutamente pentendo di aver fatto uscire Fire 2.0 senza aver percepito il suo significato competitivo.
Certo, prima o poi sarebbe trapelato, e saremmo stati qui comunque.
Penso che per i costruttori SaaS, tuttavia, supponiamo che tu stia costruendo un prodotto AI per qualcosa come l’elaborazione dei registri o la manipolazione degli strumenti: sono tutti vincitori qui. I clienti aziendali stanno impostando grandi commit GPU in anticipo perché stanno tutti entrando nella propria IA personalizzata, esattamente per questo motivo: sapevano che la messa a punto sarebbe stata un grosso problema. E ora lo è!
Per Cody, saremo ancora legati ai grandi giocatori per un po’, ancora. Immagino che abbiano circa 6 mesi di vantaggio. Non stiamo vedendo le stesse prestazioni di StarCoder fuori dalla scatola come si otterrebbero da GPT-4 o Claude.
Ma basta guardare quel fossato che abbiamo:
Possiamo perfezionare con il tuo codice e con il nostro grafico del codice (fossato!)
Possiamo creare incorporamenti con il tuo codice / docs / config / etc e il nostro grafico del codice (fossato!)
Possiamo controllare le uscite allucinate del tuo LLM con il nostro grafico di codice preciso (fossato!)
Siamo in grado di eseguire controlli di sicurezza guardrail (ad esempio cve) con alta precisione (fossato!)
Possiamo orchestrare le modifiche di massa al codice (ad esempio la mitigazione delle vulnerabilità) con Sourcegraph Batch Changes (fossato!)
Si scopre che l’intera piattaforma di Sourcegraph dietro il prodotto è fondamentalmente un costruttore di fossati. Chiunque affronteremo avrà bisogno di un fossato più grande.
Spero che anche tu abbia qualcosa del genere.