Il rivale di OpenAI Cohere lancia l’API del modello di linguaggio
 
Cohere , una startup che crea modelli linguistici di grandi dimensioni per rivaleggiare con quelli di OpenAI e AI2Labs , ha annunciato oggi la disponibilità generale della sua piattaforma commerciale per lo sviluppo di app e servizi. Attraverso un’API, i clienti possono accedere a modelli ottimizzati per una gamma di applicazioni in linguaggio naturale, in alcuni casi a una frazione del costo delle offerte concorrenti.

La pandemia ha accelerato la trasformazione digitale del mondo, spingendo le aziende a diventare più dipendenti dal software per semplificare i propri processi. Di conseguenza, la domanda di tecnologia del linguaggio naturale è ora più alta che mai, in particolare nelle aziende. Secondo un sondaggio del 2021 di John Snow Labs e Gradient Flow, il 60% dei leader tecnologici ha indicato che i budget per l’elaborazione del linguaggio naturale (PNL) sono cresciuti di almeno il 10% rispetto al 2020, mentre un terzo – il 33% – ha affermato che la loro spesa è aumentata di oltre il 30%.

 
Si prevede che il mercato globale della PNL  aumenterà di valore da 11,6 miliardi di dollari nel 2020 a 35,1 miliardi di dollari entro il 2026.

“Il linguaggio è essenziale per l’umanità e probabilmente la sua singola più grande invenzione, dopo lo sviluppo dei computer. Ironia della sorte, i computer non hanno ancora la capacità di comprendere appieno il linguaggio, trovando difficile analizzare la sintassi, la semantica e il contesto che lavorano insieme per dare significato alle parole”, ha detto il CEO di Cohere Aidan Gomez a VentureBeat via e-mail. “Tuttavia, le ultime novità in fatto di tecnologia NLP migliorano continuamente la nostra capacità di comunicare senza problemi con i computer”.

coerente
Con sede a Toronto, in Canada, Cohere è stata fondata nel 2019 da un team con pedigree composto da Gomez, Ivan Zhang e Nick Frosst. Gomez, un ex stagista di Google Brain, è stato coautore del documento accademico ” Attenzione è tutto ciò che serve “, che ha presentato al mondo un’architettura fondamentale del modello di intelligenza artificiale chiamata Transformer. (Tra gli altri sistemi di alto profilo, GPT-3 e Codex di OpenAI sono basati sull’architettura Transformer.) Zhang, insieme a Gomez, è un collaboratore di FOR.ai, un collettivo di ricerca AI aperto che coinvolge scienziati e ingegneri dei dati. Per quanto riguarda Frosst, anche lui, come Gomez, ha lavorato presso Google Brain, pubblicando ricerche sul machine learning insieme al vincitore del Turing Award Geoffrey Hinton.

In un voto di fiducia, anche prima di lanciare il suo servizio commerciale, Cohere ha raccolto $ 40 milioni da venture capitalist istituzionali, nonché da Hinton, dal capo scienziato di Google Cloud AI Fei-Fei Li, dal co-direttore del laboratorio AI di UC Berkeley Pieter Abbeel e dall’ex autonomo Uber capo guida Raquel Urtasun. “I modelli linguistici molto ampi stanno ora offrendo ai computer una comprensione molto migliore della comunicazione umana. Il team di Cohere sta costruendo una tecnologia che renderà questa rivoluzione nella comprensione del linguaggio naturale molto più ampiamente disponibile”, ha dichiarato Hinton in una dichiarazione a Fast Company a settembre.

A differenza di alcuni dei suoi concorrenti, Cohere offre due tipi di modelli di PNL inglese, generazione e rappresentazione, in lingue che includono Large, Medium, Small. I modelli di generazione possono completare attività che comportano la generazione di testo, ad esempio la scrittura di descrizioni dei prodotti o l’estrazione di metadati di documenti. Al contrario, i modelli rappresentazionali riguardano la comprensione del linguaggio, guidando app come la ricerca semantica, i chatbot e l’analisi del sentimento.

 

Cohere sta già fornendo la funzionalità NLP per Ada , una società nello spazio chatbot. Ada sfrutta un modello Cohere per abbinare le richieste di chat dei clienti con le informazioni di supporto disponibili.

“Essendo in entrambi [lo spazio generativo e rappresentativo], Cohere ha la flessibilità di cui hanno bisogno molti clienti aziendali e può offrire una gamma di dimensioni del modello che consente ai clienti di scegliere il modello che meglio si adatta alle loro esigenze attraverso gli spettri di latenza e prestazioni “, ha detto Gomez. “I casi [di utilizzo] in tutti i settori includono la capacità di tracciare e classificare in modo più accurato le spese, accelerare l’inserimento dei dati per i fornitori di servizi medici o sfruttare la ricerca semantica per casi legali, polizze assicurative e documenti finanziari. Le aziende possono facilmente generare descrizioni dei prodotti con un input minimo, redigere e analizzare contratti legali e analizzare tendenze e sentiment per informare le decisioni di investimento.

Per mantenere la sua tecnologia relativamente conveniente, Cohere addebita l’accesso in base al carattere in base alle dimensioni del modello e al numero di caratteri utilizzati dalle app (da $ 0,0025 a $ 0,12 per 10.000 caratteri per la generazione e $ 0,019 per 10.000 caratteri per la rappresentazione). Solo i modelli di generazione si caricano sui caratteri di input e output, mentre altri modelli si caricano sui caratteri di output. Tutti i modelli perfezionati, nel frattempo, ovvero modelli su misura per particolari domini, settori o scenari, vengono addebitati a due volte la tariffa del modello di base.

“Il problema rimane che le uniche aziende in grado di capitalizzare sulla tecnologia NLP richiedono risorse apparentemente senza fondo per accedere alla tecnologia per modelli linguistici di grandi dimensioni, il che è dovuto al costo di questi modelli che vanno da decine a centinaia di milioni di dollari per costruire “, ha detto Gomez. “Cohere è facile da implementare. Con solo tre righe di codice, le aziende possono applicare il [nostro] motore full-stack per soddisfare tutte le loro esigenze di PNL. I modelli stessi sono… già pre-addestrati”.

 

Secondo Gomez, la formazione e l’implementazione di modelli linguistici di grandi dimensioni in produzione non è un’impresa facile, anche per le aziende con enormi risorse. Ad esempio, il modello Megatron 530B recentemente rilasciato da Nvidia è stato originariamente addestrato su 560 server Nvidia DGX A100, ognuno dei quali ospita 8 GPU Nvidia A100 da 80 GB. Microsoft e Nvidia affermano di aver osservato tra 113 e 126 teraflop al secondo per GPU durante l’addestramento di Megatron 530B, il che farebbe salire il costo dell’addestramento nell’ordine di milioni di dollari. (Una valutazione teraflop misura le prestazioni dell’hardware incluse le GPU.)

L’inferenza, ovvero l’esecuzione del modello addestrato, è un’altra sfida. Su due dei suoi costosi sistemi DGX SuperPod , Nvidia afferma che l’inferenza (ad esempio, il completamento automatico di una frase) con Megatron 530B richiede solo mezzo secondo. Ma può richiedere più di un minuto su un server locale basato su CPU. Sebbene le alternative al cloud possano essere più economiche, non lo sono drammaticamente: una stima fissa il costo dell’esecuzione di GPT-3 su una singola istanza di Amazon Web Services a un minimo di $ 87.000 all’anno.

Addestrare i modelli
Per costruire i modelli di Cohere, Gomez afferma che il team raschia il Web e alimenta miliardi di ebook e pagine Web (ad esempio WordPress, Tumblr, Stack Exchange, Genius, BBC, Yahoo e New York Times) ai modelli in modo che imparare a comprendere il significato e l’intento del linguaggio. (Il set di dati di addestramento per i modelli di generazione ammonta a un set di dati di 200 GB dopo alcuni filtri, mentre il set di dati per i modelli di rappresentazione, che non è stato filtrato, ammonta a 3 TB.) Come tutti i modelli di intelligenza artificiale, i treni di Cohere acquisiscono una serie di esempi per apprendere i modelli tra punti dati, come regole grammaticali e sintattiche.

È risaputo che i modelli possono amplificare i pregiudizi nei dati su cui sono stati addestrati. In un articolo , il Centro sul terrorismo, l’estremismo e l’antiterrorismo del Middlebury Institute of International Studies afferma che il GPT-3 e modelli simili possono generare testi che potrebbero radicalizzare le persone verso ideologie estremiste di estrema destra. Un gruppo della Georgetown University ha utilizzato GPT-3 per generare disinformazione, comprese storie su una falsa narrativa, articoli modificati per spingere una prospettiva fasulla e tweet che parlano di particolari punti di disinformazione. Altri studi, come quello pubblicato ad aprile dai ricercatori di Intel, MIT e CIFAR dell’iniziativa IA canadese, hanno trovato alti livelli di pregiudizi stereotipati da alcuni dei modelli open source più popolari, tra cui  BERT di Google e   XLNet  e  RoBERTa di Facebook .

 

Cohere, da parte sua, afferma di essere impegnata nella sicurezza e di addestrare i suoi modelli “per ridurre al minimo i pregiudizi e la tossicità”. I clienti devono rispettare le linee guida di utilizzo dell’azienda o rischiano di vedersi revocare l’accesso all’API. E Cohere, che ha un consiglio consultivo esterno oltre a un team di sicurezza interno, afferma che prevede di monitorare i “rischi in evoluzione” con strumenti progettati per identificare gli output dannosi.

Ma i modelli di PNL di Cohere non sono perfetti. Nella sua documentazione, la società ammette che i modelli potrebbero generare “oscenità, contenuti sessualmente espliciti e messaggi che caratterizzano erroneamente o stereotipano gruppi di persone sulla base di pregiudizi storici problematici perpetuati dalle comunità di Internet”. Ad esempio, quando vengono forniti suggerimenti su persone, occupazioni e ideologie politico/religiose, l’output dell’API potrebbe essere tossico da 5 a 6 volte per 1.000 generazioni e discutere di uomini il doppio rispetto alle donne, afferma Cohere. Nel frattempo, il modello della lontra, in particolare, tende ad associare uomini e donne con occupazioni stereotipicamente “maschili” e “femminili” (ad esempio, scienziato maschio contro governante femmina).

In risposta, Gomez afferma che il team di Cohere “si impegna in modo sostanziale nel filtrare i contenuti tossici e il testo non valido”, incluso l’esecuzione di attacchi contraddittori e la misurazione dei modelli rispetto ai benchmark della ricerca sulla sicurezza. “[F]iltrazione viene eseguita a livello di parole chiave e di dominio al fine di ridurre al minimo bias e tossicità”, ha aggiunto. “[Il team ha compiuto] progressi significativi che distinguono Cohere dalle altre [aziende che sviluppano] modelli linguistici di grandi dimensioni… [Siamo] fiduciosi nell’impatto che avrà sul futuro del lavoro nel corso di questa era di trasformazione”.

Di ihal