La cosa più impressionante del modello di elaborazione del linguaggio naturale (NLP) di OpenAI, GPT-3 , sono le sue dimensioni. Con oltre 175 miliardi di connessioni ponderate tra parole note come parametri, il modello trasformatore codificatore-decodificatore fa saltare in aria il suo predecessore da 1,5 miliardi di parametri, GPT-2. Ciò ha consentito al modello di generare un testo sorprendentemente simile a quello umano dopo aver ricevuto solo alcuni esempi dell’attività che si desidera eseguire.

La sua uscita nel 2020 ha dominato i titoli e le persone si stavano affrettando per entrare in lista di attesa per accedere alla sua API ospitata sul servizio cloud di OpenAI. Ora, mesi dopo, poiché più utenti hanno ottenuto l’accesso all’API (me compreso), applicazioni e casi d’uso interessanti sono comparsi ogni giorno. Ad esempio, Debuild.co ha alcune demo davvero interessanti in cui puoi creare un’applicazione dando al programma alcune semplici istruzioni in un inglese semplice.

Nonostante l’hype, persistono dubbi sul fatto che GPT-3 sarà il fondamento su cui poggerà un ecosistema di applicazioni NLP o se modelli di PNL più recenti e più forti lo faranno cadere dal suo trono. Quando le aziende iniziano a immaginare e progettare applicazioni NLP, ecco cosa dovrebbero sapere su GPT-3 e sul suo potenziale ecosistema.

GPT-3 e la corsa agli armamenti della PNL
Come ho descritto in passato , ci sono davvero due approcci per pre-addestrare un modello di PNL: generalizzato e non generalizzato.

Un approccio non generalizzato ha obiettivi di pre-addestramento specifici che sono allineati con un caso d’uso noto. Fondamentalmente, questi modelli vanno in profondità in un set di dati più piccolo e più mirato piuttosto che in un ampio set di dati. Un esempio di ciò è il modello PEGASUS di Google , creato appositamente per consentire il riepilogo del testo. PEGASUS è pre-addestrato su un set di dati che assomiglia molto al suo obiettivo finale. Viene quindi ottimizzato sui set di dati di riepilogo del testo per fornire risultati all’avanguardia. Il vantaggio dell’approccio non generalizzato è che può aumentare notevolmente la precisione per attività specifiche. Tuttavia, è anche significativamente meno flessibile di un modello generalizzato e richiede ancora molti esempi di addestramento prima che possa iniziare a raggiungere la precisione.

Un approccio generalizzato, al contrario, è ampio. Questi sono i 175 miliardi di parametri di GPT-3 al lavoro ed è essenzialmente pre-addestrato su Internet. Ciò consente a GPT-3 di eseguire praticamente qualsiasi attività NLP con solo una manciata di esempi, sebbene la sua precisione non sia sempre ideale. In effetti, il team di OpenAI evidenzia i limiti del pre-allenamento generalizzato e cede persino che GPT-3 ha “notevoli punti deboli nella sintesi del testo”.

OpenAI ha deciso che diventare più grande è meglio quando si tratta di problemi di precisione, con ogni versione del modello che aumenta il numero di parametri per ordini di grandezza. I concorrenti se ne sono accorti. I ricercatori di Google hanno recentemente pubblicato un documento che evidenzia un modello PNL Switch Transformer che ha 1,6 trilioni di parametri. Questo è un numero semplicemente ridicolo, ma potrebbe significare che assisteremo a una corsa agli armamenti quando si tratterà di modelli generalizzati. Sebbene questi siano di gran lunga i due più grandi modelli generalizzati, Microsoft ha Turing-NLG a 17 miliardi di parametri e potrebbe anche cercare di unirsi alla corsa agli armamenti. Se si considera che è costato all’OpenAI quasi 12 milioni di dollari per addestrare GPT-3 , una tale corsa agli armamenti potrebbe diventare costosa.

Promettenti applicazioni GPT-3
La flessibilità di GPT-3 è ciò che lo rende attraente dal punto di vista dell’ecosistema applicativo. Puoi usarlo per fare qualsiasi cosa tu possa immaginare con il linguaggio. Com’era prevedibile, le startup hanno iniziato a esplorare come utilizzare GPT-3 per alimentare la prossima generazione di applicazioni NLP. Ecco un elenco di interessanti prodotti GPT-3 compilato da Alex Schmitt di Cherry Ventures.

Molte di queste applicazioni sono ampiamente rivolte ai consumatori, come “Love Letter Generator”, ma esistono anche applicazioni più tecniche come “HTML Generator”. Mentre le aziende valutano come e dove possono incorporare GPT-3 nei loro processi aziendali, un paio dei primi casi d’uso più promettenti riguardano l’assistenza sanitaria, la finanza e le riunioni video.

Per le imprese del settore sanitario, dei servizi finanziari e delle assicurazioni, la razionalizzazione della ricerca è una necessità enorme. I dati in questi campi stanno crescendo in modo esponenziale e sta diventando impossibile rimanere in cima al tuo campo di fronte a questo picco. Le applicazioni PNL costruite su GPT-3 potrebbero raccogliere gli ultimi rapporti, documenti, risultati, ecc. E riepilogare contestualmente i risultati chiave per risparmiare tempo ai ricercatori.

E poiché le riunioni video e la telemedicina sono diventate sempre più importanti durante la pandemia, abbiamo visto aumentare la domanda di strumenti di PNL che possono essere applicati alle riunioni video. Ciò che offre GPT-3 è la capacità non solo di scrivere e prendere appunti da una riunione individuale, ma anche di generare “troppo tempo”; non ha letto “(TL; DR) riassunti.

Come le imprese e le startup possono costruire un fossato
Nonostante questi promettenti casi d’uso, il principale inibitore di un ecosistema di applicazioni GPT-3 è la facilità con cui un imitatore potrebbe replicare le prestazioni di qualsiasi applicazione sviluppata utilizzando l’API di GPT-3.

Tutti coloro che utilizzano l’API di GPT-3 ricevono lo stesso modello NLP pre-addestrato sugli stessi dati, quindi l’unico elemento di differenziazione sono i dati di messa a punto che un’organizzazione sfrutta per specializzare il caso d’uso. Maggiore è la messa a punto dei dati utilizzati, più differenziato e sofisticato è l’output.

Cosa significa questo? Le organizzazioni più grandi con un numero maggiore di utenti o più dati rispetto ai loro concorrenti saranno in grado di sfruttare meglio la promessa di GPT-3. GPT-3 non porterà a startup dirompenti; consentirà alle imprese e alle grandi organizzazioni di ottimizzare le loro offerte grazie al loro vantaggio incombente.

Cosa significa questo per le imprese e le startup che stanno andando avanti?
Le applicazioni create utilizzando l’API di GPT-3 stanno appena iniziando a scalfire la superficie di possibili casi d’uso, quindi non abbiamo ancora visto svilupparsi un ecosistema di prove di concetti interessanti. Anche il modo in cui un tale ecosistema monetizzerebbe e maturerebbe è ancora una questione aperta.

Poiché la differenziazione in questo contesto richiede una messa a punto, mi aspetto che le imprese abbraccino la generalizzazione di GPT-3 per determinate attività di PNL, mentre si attengono a modelli non generalizzati come PEGASUS per attività di PNL più specifiche.

Inoltre, poiché il numero di parametri si espande in modo esponenziale tra i grandi attori della PNL, potremmo vedere gli utenti spostarsi tra gli ecosistemi a seconda di chi ha il comando al momento.

Indipendentemente dal fatto che un ecosistema applicativo GPT-3 maturi o sia sostituito da un altro modello di PNL, le aziende dovrebbero essere entusiaste della relativa facilità con cui sta diventando possibile creare modelli di PNL altamente articolati. Dovrebbero esplorare casi d’uso e considerare come trarre vantaggio dalla loro posizione sul mercato per creare rapidamente valore aggiunto per i propri clienti e per i propri processi aziendali.

X

Unisciti a Transform 2021 per i temi più importanti nell’intelligenza artificiale e nei dati aziendali. Scopri di più .

La cosa più impressionante del modello di elaborazione del linguaggio naturale (NLP) di OpenAI, GPT-3 , sono le sue dimensioni. Con oltre 175 miliardi di connessioni ponderate tra parole note come parametri, il modello trasformatore codificatore-decodificatore fa saltare in aria il suo predecessore da 1,5 miliardi di parametri, GPT-2. Ciò ha consentito al modello di generare un testo sorprendentemente simile a quello umano dopo aver ricevuto solo alcuni esempi dell’attività che si desidera eseguire.

La sua uscita nel 2020 ha dominato i titoli e le persone si stavano affrettando per entrare in lista di attesa per accedere alla sua API ospitata sul servizio cloud di OpenAI. Ora, mesi dopo, poiché più utenti hanno ottenuto l’accesso all’API (me compreso), applicazioni e casi d’uso interessanti sono comparsi ogni giorno. Ad esempio, Debuild.co ha alcune demo davvero interessanti in cui puoi creare un’applicazione dando al programma alcune semplici istruzioni in un inglese semplice.

Nonostante l’hype, persistono dubbi sul fatto che GPT-3 sarà il fondamento su cui poggerà un ecosistema di applicazioni NLP o se modelli di PNL più recenti e più forti lo faranno cadere dal suo trono. Quando le aziende iniziano a immaginare e progettare applicazioni NLP, ecco cosa dovrebbero sapere su GPT-3 e sul suo potenziale ecosistema.

GPT-3 e la corsa agli armamenti della PNL
Come ho descritto in passato , ci sono davvero due approcci per pre-addestrare un modello di PNL: generalizzato e non generalizzato.

Un approccio non generalizzato ha obiettivi di pre-addestramento specifici che sono allineati con un caso d’uso noto. Fondamentalmente, questi modelli vanno in profondità in un set di dati più piccolo e più mirato piuttosto che in un ampio set di dati. Un esempio di ciò è il modello PEGASUS di Google , creato appositamente per consentire il riepilogo del testo. PEGASUS è pre-addestrato su un set di dati che assomiglia molto al suo obiettivo finale. Viene quindi ottimizzato sui set di dati di riepilogo del testo per fornire risultati all’avanguardia. Il vantaggio dell’approccio non generalizzato è che può aumentare notevolmente la precisione per attività specifiche. Tuttavia, è anche significativamente meno flessibile di un modello generalizzato e richiede ancora molti esempi di addestramento prima che possa iniziare a raggiungere la precisione.

Un approccio generalizzato, al contrario, è ampio. Questi sono i 175 miliardi di parametri di GPT-3 al lavoro ed è essenzialmente pre-addestrato su Internet. Ciò consente a GPT-3 di eseguire praticamente qualsiasi attività NLP con solo una manciata di esempi, sebbene la sua precisione non sia sempre ideale. In effetti, il team di OpenAI evidenzia i limiti del pre-allenamento generalizzato e cede persino che GPT-3 ha “notevoli punti deboli nella sintesi del testo”.

OpenAI ha deciso che diventare più grande è meglio quando si tratta di problemi di precisione, con ogni versione del modello che aumenta il numero di parametri per ordini di grandezza. I concorrenti se ne sono accorti. I ricercatori di Google hanno recentemente pubblicato un documento che evidenzia un modello PNL Switch Transformer che ha 1,6 trilioni di parametri. Questo è un numero semplicemente ridicolo, ma potrebbe significare che assisteremo a una corsa agli armamenti quando si tratterà di modelli generalizzati. Sebbene questi siano di gran lunga i due più grandi modelli generalizzati, Microsoft ha Turing-NLG a 17 miliardi di parametri e potrebbe anche cercare di unirsi alla corsa agli armamenti. Se si considera che è costato all’OpenAI quasi 12 milioni di dollari per addestrare GPT-3 , una tale corsa agli armamenti potrebbe diventare costosa.

Promettenti applicazioni GPT-3
La flessibilità di GPT-3 è ciò che lo rende attraente dal punto di vista dell’ecosistema applicativo. Puoi usarlo per fare qualsiasi cosa tu possa immaginare con il linguaggio. Com’era prevedibile, le startup hanno iniziato a esplorare come utilizzare GPT-3 per alimentare la prossima generazione di applicazioni NLP. Ecco un elenco di interessanti prodotti GPT-3 compilato da Alex Schmitt di Cherry Ventures.

Molte di queste applicazioni sono ampiamente rivolte ai consumatori, come “Love Letter Generator”, ma esistono anche applicazioni più tecniche come “HTML Generator”. Mentre le aziende valutano come e dove possono incorporare GPT-3 nei loro processi aziendali, un paio dei primi casi d’uso più promettenti riguardano l’assistenza sanitaria, la finanza e le riunioni video.

Per le imprese del settore sanitario, dei servizi finanziari e delle assicurazioni, la razionalizzazione della ricerca è una necessità enorme. I dati in questi campi stanno crescendo in modo esponenziale e sta diventando impossibile rimanere in cima al tuo campo di fronte a questo picco. Le applicazioni PNL costruite su GPT-3 potrebbero raccogliere gli ultimi rapporti, documenti, risultati, ecc. E riepilogare contestualmente i risultati chiave per risparmiare tempo ai ricercatori.

E poiché le riunioni video e la telemedicina sono diventate sempre più importanti durante la pandemia, abbiamo visto aumentare la domanda di strumenti di PNL che possono essere applicati alle riunioni video. Ciò che offre GPT-3 è la capacità non solo di scrivere e prendere appunti da una riunione individuale, ma anche di generare “troppo tempo”; non ha letto “(TL; DR) riassunti.

Come le imprese e le startup possono costruire un fossato
Nonostante questi promettenti casi d’uso, il principale inibitore di un ecosistema di applicazioni GPT-3 è la facilità con cui un imitatore potrebbe replicare le prestazioni di qualsiasi applicazione sviluppata utilizzando l’API di GPT-3.

Tutti coloro che utilizzano l’API di GPT-3 ricevono lo stesso modello NLP pre-addestrato sugli stessi dati, quindi l’unico elemento di differenziazione sono i dati di messa a punto che un’organizzazione sfrutta per specializzare il caso d’uso. Maggiore è la messa a punto dei dati utilizzati, più differenziato e sofisticato è l’output.

Cosa significa questo? Le organizzazioni più grandi con un numero maggiore di utenti o più dati rispetto ai loro concorrenti saranno in grado di sfruttare meglio la promessa di GPT-3. GPT-3 non porterà a startup dirompenti; consentirà alle imprese e alle grandi organizzazioni di ottimizzare le loro offerte grazie al loro vantaggio incombente.

Cosa significa questo per le imprese e le startup che stanno andando avanti?
Le applicazioni create utilizzando l’API di GPT-3 stanno appena iniziando a scalfire la superficie di possibili casi d’uso, quindi non abbiamo ancora visto svilupparsi un ecosistema di prove di concetti interessanti. Anche il modo in cui un tale ecosistema monetizzerebbe e maturerebbe è ancora una questione aperta.

Poiché la differenziazione in questo contesto richiede una messa a punto, mi aspetto che le imprese abbraccino la generalizzazione di GPT-3 per determinate attività di PNL, mentre si attengono a modelli non generalizzati come PEGASUS per attività di PNL più specifiche.

Inoltre, poiché il numero di parametri si espande in modo esponenziale tra i grandi attori della PNL, potremmo vedere gli utenti spostarsi tra gli ecosistemi a seconda di chi ha il comando al momento.

Indipendentemente dal fatto che un ecosistema applicativo GPT-3 maturi o sia sostituito da un altro modello di PNL, le aziende dovrebbero essere entusiaste della relativa facilità con cui sta diventando possibile creare modelli di PNL altamente articolati. Dovrebbero esplorare casi d’uso e considerare come trarre vantaggio dalla loro posizione sul mercato per creare rapidamente valore aggiunto per i propri clienti e per i propri processi aziendali.

Di ihal