I modelli linguistici di grandi dimensioni in grado di scrivere poesie, riassunti e codice informatico stanno guidando la domanda di “elaborazione del linguaggio naturale (NLP) come servizio”. Man mano che questi modelli diventano più capaci e accessibili, relativamente parlando, l’appetito per loro nell’impresa sta crescendo. Secondo un sondaggio del 2021 di John Snow Labs e Gradient Flow, il 60% dei leader tecnologici ha indicato che i propri budget per la PNL sono cresciuti di almeno il 10% rispetto al 2020, mentre un terzo – il 33% – ha affermato che la propria spesa è aumentata di oltre il 30% .
I fornitori con buone risorse come OpenAI, Cohere e AI21 Labs stanno raccogliendo i frutti. A marzo, OpenAI ha affermato che GPT-3 veniva utilizzato in più di 300 app diverse da “decine di migliaia” di sviluppatori e produceva 4,5 miliardi di parole al giorno. Storicamente, la formazione e l’implementazione di questi modelli erano al di fuori della portata delle startup prive di un capitale sostanziale, per non parlare delle risorse di calcolo. Ma l’emergere di modelli, set di dati e infrastrutture della PNL open source sta democratizzando la tecnologia in modi sorprendenti.
PNL open source
Gli ostacoli allo sviluppo di un modello linguistico all’avanguardia sono significativi. Coloro che hanno le risorse per svilupparli e addestrarli, come OpenAI, spesso scelgono di non rendere open source i loro sistemi a favore della commercializzazione (o della licenza esclusiva). Ma anche i modelli che sono open-source richiedono immense risorse di calcolo per la commercializzazione.
Prendi, ad esempio, Megatron 530B , che è stato creato e rilasciato congiuntamente da Microsoft e Nvidia. Il modello è stato originariamente addestrato su 560 server Nvidia DGX A100, ognuno dei quali ospita 8 GPU Nvidia A100 da 80 GB. Microsoft e Nvidia affermano di aver osservato tra 113 e 126 teraflop al secondo per GPU durante l’addestramento di Megatron 530B, il che farebbe salire il costo dell’addestramento nell’ordine di milioni di dollari. (Una valutazione teraflop misura le prestazioni dell’hardware, comprese le GPU.)
L’inferenza, ovvero l’esecuzione del modello addestrato, è un’altra sfida. Ridurre il tempo di inferenza (ad esempio, il completamento automatico della frase) con Megatron 530B a mezzo secondo richiede l’equivalente di due sistemi Nvidia DGX A100 da $ 199.000. Sebbene le alternative al cloud possano essere più economiche, non lo sono drammaticamente: una stima fissa il costo dell’esecuzione di GPT-3 su una singola istanza di Amazon Web Services a un minimo di $ 87.000 all’anno.
Di recente, tuttavia, gli sforzi di ricerca aperta come EleutherAI hanno abbassato le barriere all’ingresso. EleutherAI, una raccolta di base di ricercatori di intelligenza artificiale, mira a fornire il codice e i set di dati necessari per eseguire un modello simile (sebbene non identico) a GPT-3. Il gruppo ha già rilasciato un set di dati chiamato The Pile progettato per addestrare modelli linguistici di grandi dimensioni per completare testo, scrivere codice e altro. (Per inciso, Megatron 530B è stato addestrato su The Pile.) E a giugno, EleutherAI ha reso disponibile con la licenza Apache 2.0 GPT-Neo e il suo successore, GPT-J , un modello di linguaggio che funziona quasi alla pari con un GPT- di dimensioni equivalenti. 3 modello.
Una delle startup che servono i modelli di EleutherAI come servizio è NLP Cloud, fondata un anno fa da Julien Salinas, ex ingegnere del software presso Hunter.io e fondatore del servizio di prestito di denaro StudyLink.fr. Salinas dice che l’idea gli è venuta quando si è reso conto che, come programmatore, stava diventando e più facile sfruttare i modelli NLP open source per le applicazioni aziendali, ma più difficile farli funzionare correttamente in produzione.
“La nostra base di clienti sta crescendo rapidamente e vediamo clienti molto diversi che utilizzano NLP Cloud, dai liberi professionisti alle startup e alle più grandi aziende tecnologiche”, ha detto Salinas a VentureBeat via e-mail. “Ad esempio, stiamo attualmente aiutando un cliente a creare un’IA esperta in programmazione che non codifica per te, ma, cosa ancora più importante, ti fornisce informazioni avanzate su specifici campi tecnici che puoi sfruttare durante lo sviluppo della tua applicazione (ad esempio, come Vai sviluppatore, potresti voler imparare a usare le goroutine ). Abbiamo un altro cliente che ha messo a punto la propria versione di GPT-J su NLP Cloud per creare riepiloghi medici delle conversazioni tra medici e pazienti”.
NLP Cloud compete con Neuro , che serve modelli tramite un’API che include GPT-J di EleutherAI su base pay-per-use. Perseguendo una maggiore efficienza, Neuro afferma di eseguire una versione più leggera di GPT-J che produce ancora “risultati forti” per applicazioni come la generazione di testi di marketing. In un’altra misura di risparmio sui costi, Neuro ha anche clienti che condividono GPU cloud, il cui consumo energetico è limitato dall’azienda al di sotto di un certo livello.
“La crescita dei clienti è stata buona. Abbiamo avuto molti utenti che ci hanno inserito nel loro ambiente di produzione senza aver parlato con loro, il che è fantastico per un prodotto aziendale”, ha detto il CEO Paul Hetherington a VentureBeat via e-mail. “Alcune persone hanno speso più di 1.000 dollari nel loro primo giorno di utilizzo con tempi di integrazione di pochi minuti in molti casi. Abbiamo clienti che utilizzano GPT-J… in una varietà di modi, tra cui testi di mercato, generazione di storie e articoli e generazione di dialoghi per i personaggi nei giochi o nei chatbot”.
Neuro, che afferma di eseguire tutto il suo calcolo internamente, ha un team di 11 persone e si è recentemente laureato alla coorte Winter 2021 di Y Combinator. Hetherington afferma che il piano è continuare a costruire la sua rete cloud e far crescere la sua relazione con EleutherAI.
Un altro utilizzatore del modello EleutherAI è CoreWeave , che lavora anche a stretto contatto con EleutherAI per addestrare i modelli più grandi del gruppo. CoreWeave, un provider di servizi cloud che inizialmente si è concentrato sull’estrazione di criptovalute, afferma che servire modelli NLP è il suo “caso d’uso più grande fino ad oggi” e attualmente lavora con clienti tra cui Novel AI, la cui piattaforma basata sull’intelligenza artificiale aiuta gli utenti a creare storie e intraprendere il testo- avventure basate
“Ci siamo rivolti alla PNL a causa delle dimensioni del mercato e del vuoto che colmiamo come provider di servizi cloud”, ha detto a VentureBeat via e-mail il cofondatore di CoreWeave e CTO Brian Venturo. “Penso che abbiamo avuto davvero successo qui grazie all’infrastruttura che abbiamo costruito e ai vantaggi in termini di costi che i nostri clienti vedono su CoreWeave rispetto ai concorrenti.”
Problemi di bias
Nessun modello linguistico è immune da pregiudizi e tossicità , come la ricerca ha ripetutamente dimostrato . NLP-as-a-service più grande provider hanno preso una serie di approcci nel tentativo di mitigare gli effetti, dalla consulenza consigli consultivi esterni di filtri attuazione che impediscono ai clienti di utilizzare i modelli per generare determinati contenuti, come quello di pertinenza di autolesionismo.
A livello di set di dati, EleutherAI afferma di aver eseguito “un’ampia analisi dei pregiudizi” su The Pile e di aver preso “decisioni editoriali difficili” per escludere i dati che ritenevano fossero “inaccettabilmente negativi” verso determinati gruppi o punti di vista.
NLP Cloud consente ai clienti di caricare una lista nera di parole per ridurre il rischio di generare contenuti offensivi con i suoi modelli ospitati. Al fine di preservare l’integrità dei modelli originali, difetti e tutto il resto, l’azienda non ha implementato filtri o tentato di disintossicare nessuno dei modelli che serve. Ma Salinas afferma che se NLP Cloud apporta modifiche in futuro, sarà trasparente sul fatto che lo ha fatto.
“Il rischio più importante di tossicità deriva da GPT-J in quanto è un potente modello di intelligenza artificiale per la generazione di testo, quindi dovrebbe essere usato in modo responsabile”, ha affermato Salinas.
Né NLP Cloud né Neuro proibiscono esplicitamente ai clienti di utilizzare i modelli per casi d’uso potenzialmente problematici, sebbene entrambi si riservino il diritto di revocare l’accesso ai modelli per qualsiasi motivo. CoreWeave, da parte sua, crede che non controllare le applicazioni dei suoi clienti sia un punto di forza del suo servizio, ma sostiene la “sicurezza dell’IA” generale.
“[I] nostri clienti perfezionano i modelli [per, ad esempio, ridurre la tossicità] regolarmente. Ciò consente loro di “riqualificare” modelli linguistici di grandi dimensioni su un set di dati relativamente piccolo per rendere il modello più pertinente al loro caso d’uso”, ha continuato Venturo. “Al momento non disponiamo di una soluzione pronta all’uso per consentire ai clienti di farlo, ma mi aspetto che le cose cambino nelle prossime settimane”.
Hetherington osserva che Neuro offre anche funzionalità di messa a punto “con poca o nessuna esperienza di programmazione richiesta”.
Il percorso in avanti
Mentre l’approccio pratico alla moderazione del modello potrebbe non essere adatto a tutti i clienti, startup come NLP Cloud, Neuro e CoreWeave sostengono che stanno rendendo la tecnologia NLP più accessibile rispetto ai loro rivali meglio finanziati.
Ad esempio, su NLP Cloud, il piano per tre richieste al minuto utilizzando GPT-J costa $ 29 al mese su una CPU cloud o $ 99 al mese su una GPU, indipendentemente dal numero di token (cioè parole). Al contrario, OpenAI addebita in base al token. Towards Data Science ha confrontato le offerte di OpenAI e NLP Cloud e ha scoperto che un cliente che offre un’app per la generazione di saggi che riceve 10 richieste ogni minuto dovrebbe pagare circa $ 2.850 al mese se utilizzasse uno dei modelli meno capaci di OpenAI (Curie) rispetto a $ 699 con PNL Cloud.
Le startup basate su modelli open source come EleutherAI potrebbero guidare la prossima ondata di adozione della PNL. La società di consulenza Mordor Intelligence prevede che il mercato della PNL triplicherà le sue entrate entro il 2025, con l’aumento dell’interesse commerciale per l’intelligenza artificiale.
“Distribuire questi modelli in modo efficiente in modo da poter mantenere un prezzo accessibile, rendendoli affidabili senza alcuna interruzione, è una sfida. [Ma l’obiettivo è fornire] un modo per sviluppatori e data scientist di sfruttare al meglio la PNL in produzione senza preoccuparsi di DevOps”, ha affermato Salinas.