Jasper, la partnership di Cerebras cambia il gioco per FastSaaS
I VC hanno puntato su società di intelligenza artificiale generativa, ma qual è il loro vero fossato?
FastSaaS è una tendenza in crescita, con le aziende che sfruttano le capacità generative di AI e senza codice per creare il loro prodotto. I VC hanno versato denaro nelle startup di intelligenza artificiale generativa. Secondo i dati di Pitchbook , nel 2021 e nel 2022, i fondi VC totali ammontavano rispettivamente a $ 1130 e $ 1300 milioni, rispetto alle cifre del 2020 di soli $ 230 milioni. Ma ci sono state preoccupazioni incombenti sul fatto che forse tutte le aziende si stiano affrettando a diventare la prossima Super app.
Le aziende stanno cercando di ospitare il maggior numero possibile di servizi AI utilizzando un’unica API. Ad esempio, il mese scorso, Notion ha rilasciato la sua piattaforma AI che ospita servizi di scrittura AI, tra cui grammatica e controllo ortografico, parafrasi e traduzione. L’afflusso di Super app ha minacciato le aziende esistenti focalizzate su un caso d’uso specifico.
Di conseguenza, ci sono domande su ciò che differenzia queste aziende “all-in-one” oltre al design, al marketing e ai casi d’uso. Ma, come ripete Chris Frantz, co-fondatore di Loops, questo porta anche a credere che “non c’è quasi alcun fossato nell’IA generativa”.
Tuttavia, questo sembra cambiare. Di recente, Jasper, la piattaforma di contenuti AI, ha annunciato che collaborerà con la startup americana di intelligenza artificiale Cerebras Systems. La società utilizzerà il supercomputer Andromeda AI di Cerebras per addestrare le reti GPT, creando output con vari livelli di complessità per l’utente finale. Inoltre, si dice anche che il supercomputer AI migliori l’accuratezza contestuale del modello generativo fornendo al contempo contenuti personalizzati a diversi utenti.
Per quanto riguarda la partnership, il venture capitalist Nathan Benaich afferma che sembra che Jasper possa andare avanti per ridurre la sua dipendenza dall’API di OpenAI costruendo i propri modelli e addestrandoli su Cerebras, andando oltre l’addestramento GPT-3 sui sistemi Cerebras.
Le due piattaforme AI, Jasper e Notion, hanno adottato approcci diversi all’integrazione dell’IA. Mentre Jasper utilizza la potenza di calcolo per l’accelerazione dell’IA di Cerebras, Notion è supportato da Google Cloud, che utilizzerà Cloud TPU per addestrare l’API. Sebbene Notion non lo abbia ancora confermato, è opinione diffusa che il tipo di output che genera suggerisca che stia utilizzando GPT-3 dell’API OpenAI.
Pertanto, nell’era delle aziende GPT-3, Jasper cercherà di stabilire un nuovo punto di riferimento per quello che può essere il fossato nelle aziende di intelligenza artificiale generativa. L’API utilizzata e i mezzi adottati per addestrare il modello saranno il fattore determinante che separa le aziende. Ciò supporta anche direttamente che il presente e il futuro del software sono servizi cloud e servizi di supercalcolo.
Di seguito sono riportati alcuni degli approcci e le differenze tra loro.
CS-2 contro Cloud contro GPU
Il supercomputer Andromeda AI è costruito collegando 16 sistemi Cerebras CS-2 alimentati dal più grande chip AI, il Wafer Scale Engine (WSE) 2. La tecnologia “weight streaming” di Cerebras offre un’immensa flessibilità, consentendo il ridimensionamento indipendente delle dimensioni del modello e velocità di allenamento. Inoltre, il cluster di macchine CS-2 ha un’accelerazione di addestramento e inferenza in grado di supportare anche trilioni di modelli di parametri. Cerebras afferma inoltre che le sue macchine CS-2 possono formare un cluster di un massimo di 192 sistemi con un ridimensionamento delle prestazioni quasi lineare per accelerare l’addestramento.
Inoltre, un singolo sistema CS-2 può sincronizzare prestazioni di elaborazione da decine a centinaia di unità di elaborazione grafica (GPU) e fornire un output che normalmente richiederebbe giorni e settimane su processori generici per essere generato in una frazione del tempo.
Al contrario, il cloud utilizza chip di silicio personalizzati per accelerare i carichi di lavoro AI. Ad esempio, Google Cloud utilizza il suo chip interno, la Tensor Processing Unit (TPU), per addestrare reti neurali grandi e complesse utilizzando il software TensorFlow di Google.
Le Cloud TPU sono “macchine virtuali” che scaricano i processori di rete sull’hardware. I parametri del modello sono conservati in una memoria a larghezza di banda elevata su chip. Il server TensorFlow recupera i dati di addestramento in ingresso e li pre-elabora prima di trasmetterli in una coda di “alimentazione” sull’hardware Cloud TPU.
Inoltre, Cloud ha anche aumentato le sue offerte di GPU. Ad esempio, le ultime istanze AWS P4d e G4 sono alimentate da GPU NVIDIA A100 Tensor Core. All’inizio di quest’anno, Microsoft Azure ha inoltre annunciato l’adozione di Quantum-2 di NVIDIA per soddisfare le esigenze HPC di nuova generazione. Le istanze cloud sono ampiamente utilizzate in quanto sono completamente configurate per il deep learning con librerie accelerate come CUDA, cuDNN, TensorFlow e altri ben noti framework di deep learning preinstallati.
Andrew Feldman, CEO e co-fondatore di Cerebras Systems, ha spiegato che la latenza variabile tra un gran numero di GPU nei fornitori di cloud tradizionali crea problemi difficili e dispendiosi in termini di tempo quando si distribuisce un modello di intelligenza artificiale di grandi dimensioni tra le GPU, e ci sono “grandi oscillazioni nel tempo al treno.”
Secondo ZDNET , i servizi cloud AI “pay-per-model” del sistema Cerebras costano $ 2.500 per l’addestramento di un modello GPT-3 con 1,3 miliardi di parametri in 10 ore a $ 2,5 milioni per l’addestramento di uno con 70 miliardi di parametri in 85 giorni, con un costo in media la metà di quanto i clienti pagherebbero per affittare capacità cloud o noleggiare macchine per anni per svolgere l’attività.
Gli stessi cluster CS-2 sono inoltre otto volte più veloci da addestrare rispetto ai cluster di addestramento delle macchine NVIDIA A100 nel cloud. Considerando che, secondo MLPerf , quando batch simili vengono eseguiti su TPU e GPU con lo stesso numero di chip, mostrano quasi le stesse prestazioni di allenamento nei benchmark SSD e Transformer.
Ma, come sottolinea Mahmoud Khairy nel suo blog, le prestazioni dipendono da vari parametri oltre al costo e alla velocità di addestramento e, quindi, la risposta a quale approccio è il migliore dipende anche dal tipo di calcolo che deve essere eseguito. Allo stesso tempo, il sistema Cerebras CS-2 sta emergendo come uno degli strumenti più potenti per l’addestramento di vaste reti neurali.
Il fornitore di servizi di supercalcolo AI si sta estendendo anche al cloud collaborando con i servizi cloud Cirrascale per democratizzare i servizi cloud e offrire ai suoi utenti la possibilità di addestrare il modello GPT a costi molto più bassi rispetto ai fornitori di servizi cloud esistenti e con solo poche righe di codice