GPT-4 non avrà 100 trilioni di parametri.
 
Seguendo il ciclo di rilascio del franchise GPT, il lancio della quarta generazione è imminente, se non in ritardo. L’anno scorso, Sam Altman, CEO di OpenAI, in una sessione di domande e risposte al meetup online di AC10, ha parlato dell’imminente rilascio di GPT-4. Il rilascio è probabilmente disponibile per luglio-agosto di quest’anno. Tuttavia, OpenAI ha tenuto sotto controllo la data di rilascio e non ci sono informazioni definitive disponibili di pubblico dominio sulla stessa. Ma una cosa è certa: GPT-4 non avrà 100 trilioni di parametri.

GPT-3 , rilasciato a maggio 2020, ha 175 miliardi di parametri. La terza generazione della serie GPT-n utilizza il deep learning per produrre testo simile a quello umano. Il 22 settembre 2020, Microsoft ha concesso in licenza l’uso esclusivo di GPT-3. Sulla base delle informazioni disponibili e delle dichiarazioni di Sam Altman durante la sessione di domande e risposte, abbiamo compilato un elenco di miglioramenti da aspettarsi in GPT-4 .

Le dimensioni non contano
I modelli linguistici di grandi dimensioni come GPT-3 hanno ottenuto risultati eccezionali senza molti aggiornamenti dei parametri del modello. Sebbene GPT-4 sia molto probabilmente più grande di GPT-3 in termini di parametri, Sam Altman ha chiarito che le dimensioni non saranno il fattore di differenziazione per la prossima generazione del modello di linguaggio autoregressivo di OpenAI. È probabile che le cifre dei parametri rientrino tra GPT-3 e Gopher; tra 175 miliardi e 280 miliardi.

Il figlio d’amore di NVIDIA e Microsoft Megatron-Turing NLG ha detenuto il titolo della più grande rete neurale densa con 530 miliardi di parametri (circa 3x GPT-3) fino a quando il PaLM di Google (540 miliardi di parametri) ha preso la torta. È interessante notare che i modelli più piccoli come Gopher (280 miliardi di parametri) e Chinchilla (70 miliardi di parametri) hanno sovraperformato MT-NLG in diversi benchmark.

Nel 2020, Jared Kaplan di OpenAI e il team hanno affermato che le prestazioni sono migliorate con il numero di parametri. Il modello PaLM ha mostrato che i miglioramenti delle prestazioni su scala non si sono ancora stabilizzati. Tuttavia, Sam Altman ha accennato al fatto che OpenAI sta adottando un approccio diverso. Ha affermato che OpenAI non si concentrerà più sulla realizzazione di modelli estremamente grandi, ma piuttosto sull’ottenere il massimo dai modelli più piccoli. Il laboratorio di ricerca sull’IA esaminerà altri aspetti, come dati, algoritmi, parametrizzazione o allineamento, per apportare miglioramenti significativi.

GPT-4: un modello di solo testo
I modelli multimodali sono i modelli di deep learning del futuro . Poiché viviamo in un mondo multimodale, i nostri cervelli sono multisensoriali. Percepire il mondo in una sola modalità alla volta limita fortemente la capacità dell’IA di navigare e comprenderlo. Rendere GPT-4 un modello di solo testo potrebbe essere un tentativo di spingere i modelli linguistici ai loro limiti, regolando parametri come il modello e le dimensioni del set di dati prima di passare alla prossima generazione di IA multimodale.

Scarsità
I modelli sparsi che utilizzano il calcolo condizionale in diverse parti del modello per elaborare diversi input hanno avuto successo. Tali modelli scalano facilmente oltre il limite di 1 trilione di parametri senza incorrere in costi di elaborazione elevati. Tuttavia, i vantaggi degli approcci MoE diminuiscono su modelli molto grandi. GPT-4, come GPT-2 e GPT-3, sarà un modello denso. In altre parole, tutti i parametri verranno utilizzati per elaborare un dato input.

Ottimizzazione
Supponendo che GPT-4 possa essere maggiore di GPT-3 , il numero di token di addestramento necessari per essere ottimizzato per il calcolo (secondo i risultati di DeepMind ) potrebbe essere di circa 5 trilioni, un ordine di grandezza maggiore degli attuali set di dati. Il numero di FLOP necessari per addestrare il modello per ottenere una perdita di allenamento minima sarebbe 10-20 volte quello di GPT-3. Nella sessione di domande e risposte, Altman ha affermato che GPT-4 richiederebbe più elaborazione di GPT-3. OpenAI si concentrerà sull’ottimizzazione delle variabili piuttosto che sul ridimensionamento del modello. 

In allineamento
La stella polare di OpenAI è un AGI vantaggioso. È probabile che OpenAI si basi sugli insegnamenti dei modelli InstructGPT , che vengono addestrati con gli esseri umani nel ciclo. InstructGPT è stato implementato come modello di linguaggio predefinito sull’API di OpenAI ed è molto più bravo a seguire le intenzioni degli utenti rispetto a GPT-3, rendendole anche più veritiere e meno tossiche, utilizzando tecniche sviluppate attraverso la loro ricerca sull’allineamento. Tuttavia, l’allineamento era limitato ai dipendenti OpenAI e agli etichettatori di lingua inglese. È probabile che GPT-4 sia più allineato con gli esseri umani rispetto a GPT-3.

Di ihal