Oggi, quando si parla di intelligenza artificiale, è impossibile non menzionare l’incredibile successo di ChatGPT, il famoso chatbot sviluppato da OpenAI sulla base dei potenti modelli di linguaggio di grandi dimensioni (LLM) della serie GPT. Tuttavia, è importante capire come soddisfare le esigenze di questa tecnologia generativa nel vostro data center.
Il lancio di ChatGPT alla fine dell’anno scorso ha suscitato grande interesse grazie alle sue capacità di generazione di contenuti. Le persone utilizzano questo chatbot e altre soluzioni concorrenti di diversi fornitori per ottenere risposte a domande complesse e per automatizzare attività come la scrittura di codice software e la creazione di testi di marketing.
Nonostante le grandi potenzialità insite in questa tecnologia di intelligenza artificiale generativa, sfruttare appieno i modelli di base è risultato essere un’impresa difficile. La maggior parte di questi modelli è stata addestrata utilizzando dati disponibili pubblicamente, il che li rende poco adatti per applicazioni aziendali specifiche, come ad esempio l’analisi di documenti interni sensibili.
Creare un LLM, come GPT-3 o GPT-4, richiede diversi passaggi, iniziando con un intenso processo di addestramento che impiega centinaia, se non migliaia, di costose GPU collegate tra loro nei server del data center per diverse settimane o mesi.
Man mano che la dimensione del modello aumenta, cresce anche il numero di GPU necessarie per addestrarlo e mantenerlo aggiornato. Ad esempio, Google ha dovuto utilizzare 6.144 chip per addestrare il suo modello PaLM con 540 miliardi di parametri. Inoltre, il processo richiede competenze avanzate nelle tecniche e negli strumenti di formazione, come Microsoft DeepSpeed e Nvidia MegaTron-LM, che potrebbero non essere facilmente accessibili all’interno dell’organizzazione.
Una volta completato l’addestramento, queste stesse GPU sono indispensabili per eseguire l’inferenza del modello in modo continuativo, aumentando ulteriormente i costi. Per darvi un’idea, l’utilizzo di soli 500 server multi-GPU DGX A100 di Nvidia, comunemente utilizzati per l’addestramento e l’inferenza LLM, a un prezzo di $199.000 ciascuno, comporterebbe una spesa di circa $100 milioni per il progetto. Inoltre, l’elevato consumo energetico e il rilascio di calore derivanti dai server aggiungerebbero ulteriori costi di gestione.
Questo rappresenta un considerevole investimento nell’infrastruttura del data center, soprattutto per le aziende che non si dedicano esclusivamente all’intelligenza artificiale, ma cercano comunque soluzioni LLM per accelerare specifici casi d’uso aziendali.
A meno che un’azienda non disponga di dati unici e di alta qualità, che possano portare a un modello con un solido vantaggio competitivo, giustificandone l’investimento, la migliore strategia consiste nel perfezionare gli LLM open source esistenti per i casi d’uso specifici utilizzando i dati dell’organizzazione, come ad esempio documenti aziendali o e-mail dei clienti.
Nel caso in cui un’azienda veda valore nella creazione di un LLM da zero, è consigliabile iniziare con un approccio progressivo e utilizzare servizi di machine learning (ML) e infrastrutture cloud gestite, anziché investire immediatamente in costose GPU per implementazioni in loco.
Il cloud offre anche una vasta scelta di opzioni di formazione, includendo soluzioni sia di Nvidia che di AMD e Intel, nonché acceleratori personalizzati come i Google TPU e AWS Trainium. Naturalmente, ci potrebbero essere situazioni in cui leggi o normative locali impongono di evitare il cloud, rendendo l’implementazione in loco con hardware accelerato come le GPU la scelta preferenziale.
Prima di affrettarsi a investire in GPU, competenze o servizi cloud per LLM specifici del settore e delle applicazioni, è fondamentale che i responsabili tecnici definiscano una strategia chiara, collaborando con gli altri leader aziendali e esperti del settore. Concentrarsi sul business case e avere una visione chiara delle esigenze attuali e future per tali carichi di lavoro sarà di grande aiuto.
Con una pianificazione oculata, le aziende potranno prendere decisioni informate su quando e come investire nella formazione di un LLM. Questo processo includerà la scelta del tipo di hardware più adatto, l’analisi delle possibilità di utilizzare modelli preesistenti sviluppati da altre fonti e la selezione del giusto partner per il percorso dell’intelligenza artificiale.