C’è stata una grande quantità di clamore ed eccitazione nel mondo dell’intelligenza artificiale (AI) attorno a una tecnologia di recente sviluppo nota come GPT-3. In poche parole; è un’intelligenza artificiale che è più brava a creare contenuti che hanno una struttura linguistica – linguaggio umano o linguaggio macchina – rispetto a tutto ciò che è venuto prima.
GPT-3 è stato creato da OpenAI , un’azienda di ricerca co-fondata da Elon Musk ed è stata descritta come il progresso più importante e utile nell’IA da anni.
Ma c’è un po ‘di confusione su ciò che fa esattamente (e in effetti non fa), quindi qui proverò a scomporlo in termini semplici per tutti i lettori non tecnologici interessati a comprendere i principi fondamentali alla base. Tratterò anche alcuni dei problemi che solleva, nonché il motivo per cui alcune persone pensano che il suo significato sia stato in qualche modo esagerato dall’hype.
Cos’è GPT-3?
Partendo dalle basi, GPT-3 sta per Generative Pre-training Transformer 3: è la terza versione dello strumento ad essere rilasciata.
In breve, ciò significa che genera testo utilizzando algoritmi pre-addestrati: sono già stati alimentati con tutti i dati di cui hanno bisogno per svolgere il loro compito. In particolare, sono stati alimentati circa 570 GB di informazioni di testo raccolte mediante la scansione di Internet (un set di dati disponibile pubblicamente noto come CommonCrawl) insieme ad altri testi selezionati da OpenAI, incluso il testo di Wikipedia.
Se gli fai una domanda, ti aspetteresti che la risposta più utile sia una risposta. Se gli chiedi di svolgere un’attività come creare un riassunto o scrivere una poesia, otterrai un riassunto o una poesia.
Più tecnicamente, è stata anche descritta come la più grande rete neurale artificiale mai creata – la tratterò più avanti.
Cosa può fare GPT-3?
GPT-3 può creare qualsiasi cosa che abbia una struttura linguistica, il che significa che può rispondere a domande, scrivere saggi, riassumere testi lunghi, tradurre lingue, prendere appunti e persino creare codice per computer.
Infatti, in una demo disponibile online, viene mostrata la creazione di un’app che sembra e funziona in modo simile all’applicazione Instagram, utilizzando un plugin per lo strumento software Figma, che è ampiamente utilizzato per la progettazione di app.
Questo è, ovviamente, piuttosto rivoluzionario e se si dimostra utilizzabile e utile a lungo termine, potrebbe avere enormi implicazioni per il modo in cui il software e le app vengono sviluppate in futuro.
Poiché il codice stesso non è ancora disponibile al pubblico (ne parleremo più avanti), l’accesso è disponibile solo per sviluppatori selezionati tramite un’API gestita da OpenAI. Da quando l’API è stata resa disponibile nel giugno di quest’anno, sono emersi esempi di poesia, prosa, notizie e narrativa creativa.
Questo articolo è particolarmente interessante – dove puoi vedere GPT-3 fare un tentativo – abbastanza persuasivo – di convincere noi umani che non significa alcun danno. Anche se la sua onestà robotica significa che è costretto ad ammettere che “so che non sarò in grado di evitare di distruggere l’umanità”, se le persone malvagie lo faranno!
Come funziona GPT-3?
In termini di posizione all’interno delle categorie generali di applicazioni AI, GPT-3 è un modello di previsione del linguaggio. Ciò significa che è una struttura algoritmica progettata per prendere un pezzo di linguaggio (un input) e trasformarlo in ciò che prevede sia il pezzo di linguaggio successivo più utile per l’utente.
Lo può fare grazie all’analisi formativa che ha svolto sul vasto corpo di testo utilizzato per “pre-addestrarlo”. A differenza di altri algoritmi che, allo stato grezzo, non sono stati addestrati, OpenAI ha già speso l’enorme quantità di risorse di calcolo necessarie per GPT-3 per capire come funzionano e sono strutturati i linguaggi. Si dice che il tempo di elaborazione necessario per raggiungere questo obiettivo sia costato a OpenAI 4,6 milioni di dollari.
Per imparare a costruire costrutti linguistici, come le frasi, impiega l’analisi semantica – studiando non solo le parole e il loro significato, ma anche raccogliendo una comprensione di come l’uso delle parole differisce a seconda di altre parole usate anche nel testo.
È anche una forma di apprendimento automatico definito apprendimento senza supervisione perché i dati di addestramento non includono alcuna informazione su cosa sia una risposta “giusta” o “sbagliata”, come nel caso dell’apprendimento supervisionato. Tutte le informazioni necessarie per calcolare la probabilità che il suo output siano quelle di cui l’utente ha bisogno vengono raccolte dai testi di formazione stessi.
Questo viene fatto studiando l’uso di parole e frasi, quindi smontandole e tentando di ricostruirle da sé.
Ad esempio, durante l’allenamento, gli algoritmi possono incontrare la frase “la casa ha una porta rossa”. Viene quindi assegnata di nuovo la frase, ma con una parola mancante, ad esempio “la casa ha una X rossa”.
Quindi analizza tutto il testo nei suoi dati di addestramento – centinaia di miliardi di parole, disposte in un linguaggio significativo – e determina quale parola deve utilizzare per ricreare la frase originale.
Per cominciare, probabilmente sbaglierà, potenzialmente milioni di volte. Ma alla fine arriverà la parola giusta. Controllando i suoi dati di input originali, saprà di avere l’output corretto e “peso” viene assegnato al processo dell’algoritmo che ha fornito la risposta corretta. Ciò significa che “apprende” gradualmente quali metodi hanno maggiori probabilità di fornire la risposta corretta in futuro.
La scala di questo processo dinamico di “ponderazione” è ciò che rende GPT-3 la più grande rete neurale artificiale mai creata. È stato sottolineato che in qualche modo, ciò che fa non è niente di nuovo, poiché i modelli trasformatori di predizione del linguaggio esistono da molti anni. Tuttavia, il numero di pesi che l’algoritmo tiene dinamicamente nella sua memoria e utilizza per elaborare ogni query è di 175 miliardi, dieci volte più del suo rivale più vicino, prodotto da Nvidia.
Quali sono alcuni dei problemi con GPT-3?
La capacità di GPT-3 di produrre linguaggio è stata salutata come la migliore mai vista nell’IA; tuttavia, ci sono alcune considerazioni importanti.
Lo stesso CEO di OpenAI, Sam Altman, ha dichiarato: “L’hype GPT-3 è troppo. L’IA cambierà il mondo, ma GPT-3 è solo un primo assaggio”.
In primo luogo, è uno strumento estremamente costoso da utilizzare in questo momento, a causa dell’enorme quantità di potenza di calcolo necessaria per svolgere la sua funzione. Ciò significa che il costo di utilizzo sarebbe oltre il budget delle organizzazioni più piccole.
In secondo luogo, è un sistema chiuso o scatola nera. OpenAI non ha rivelato tutti i dettagli di come funzionano i suoi algoritmi, quindi chiunque si affidi ad esso per rispondere a domande o creare prodotti utili per loro non sarebbe, allo stato attuale, del tutto sicuro di come sono stati creati.
In terzo luogo, l’output del sistema non è ancora perfetto. Sebbene possa gestire compiti come la creazione di testi brevi o applicazioni di base, il suo output diventa meno utile (in effetti, descritto come “incomprensibile”) quando gli viene chiesto di produrre qualcosa di più lungo o più complesso.
Questi sono chiaramente problemi che possiamo aspettarci di affrontare nel tempo: poiché la potenza di calcolo continua a diminuire di prezzo, viene stabilita la standardizzazione intorno all’apertura delle piattaforme di intelligenza artificiale e gli algoritmi vengono messi a punto con l’aumento dei volumi di dati.
Tutto sommato, è una conclusione equa che GPT-3 produce risultati che sono passi da gigante rispetto a quelli che abbiamo visto in precedenza. Chiunque abbia visto i risultati del linguaggio AI sa che i risultati possono essere variabili e l’output di GPT-3 sembra innegabilmente un passo avanti. Quando lo vediamo correttamente nelle mani del pubblico e disponibile a tutti, la sua performance dovrebbe diventare ancora più impressionante.