La scorsa settimana, NVIDIA ha annunciato il modello NeMo per lo sviluppo di modelli vocali e linguistici e per creare un’IA conversazionale. NeMo è un toolkit open source basato sul backend PyTorch. I moduli neurali costituiscono gli elementi costitutivi di questi modelli NeMo. Con NeMo, gli utenti possono comporre e addestrare architetture di reti neurali all’avanguardia.
Come può aiutare NeMo
NVIDIA NeMo consente di creare, addestrare e ottimizzare rapidamente l’AI conversazionale. Consiste delle collezioni NeMo core e NeMo. Mentre NeMo core aiuta a ottenere l’aspetto comune per tutti i modelli, le collezioni NeMo agiscono come gruppi di moduli e modelli specifici del dominio.
Ci sono parti principali di NeMo: modello, modulo neurale e tipo neurale.
I modelli contengono tutte le informazioni necessarie riguardanti la formazione, la messa a punto, l’aumento dei dati e i dettagli dell’infrastruttura.
I modelli di NeMo sono costituiti da:
Implementazione della rete neurale in cui tutti i modelli neurali sono collegati per l’addestramento e la valutazione
Tutte le attività di pre e post elaborazione come tokenizzazione e aumento
Le classi del set di dati da utilizzare con questo modello
L’algoritmo di ottimizzazione e il programma del tasso di apprendimento
Altri dettagli dell’infrastruttura
I moduli neurali sono architetture codificatore-decodificatore costituite da elementi costitutivi concettuali responsabili di diversi compiti. Fondamentalmente, il modulo neurale è la parte logica della rete neurale, che accetta un set di input e calcola un set di output.
Gli ingressi e le uscite hanno un tipo neurale che comprende la semantica, l’ordine degli assi e le dimensioni del tensore di ingresso e uscita, che garantisce il controllo semantico di sicurezza tra i moduli di NeMo. Gli input e gli output sono tipizzati con Neural Types, che sono coppie che contengono informazioni sul layout degli assi del tensore e sulla semantica dei suoi elementi. Il tipo di input che un modulo neurale accetta e quale output restituisce sono descritti rispettivamente dalle proprietà input_types e output_types.
Per migliorare il confronto, NeMo può essere pensato come un’astrazione tra uno strato e una rete neurale completa, che corrisponde a un pezzo concettuale della rete neurale, ad esempio un codificatore, un decodificatore o un modello di linguaggio.
L’ intelligenza artificiale conversazionale comprende tre aree principali della ricerca sull’intelligenza artificiale: riconoscimento vocale automatico (ASR), elaborazione del linguaggio naturale (PNL) e sintesi vocale (TTS o sintesi vocale). NeMo aiuta i professionisti ad accedere, riutilizzare e costruire sui modelli pre-formati in questo campo.
Parlando delle diverse collezioni, NeMo viene fornito con una collezione estendibile di modelli per ASR, NLP e TTS.
La raccolta NeMo Speech (nemo_asr) comprende modelli e elementi costitutivi per il riconoscimento vocale e dei comandi, l’identificazione e la verifica degli altoparlanti e il rilevamento dell’attività vocale. La collezione NLP di NeMo (nemo_nlp) ha modelli per rispondere a domande, punteggiatura, riconoscimento di entità nome, tra gli altri. Nella raccolta text-to-speech di NeMo (nemo_tts), ci sono generatori di spettrogrammi e vocoder che generano un discorso sintetico.
I modelli NeMo sono costruiti su PyTorch e PyTorch Lightning. Mentre PyTorch è più comunemente usato, PyTorch Lightning e Hydra (dall’ecosistema PyTorch) possono essere usati per una maggiore efficacia. Un altro vantaggio dell’integrazione con PyTorch Lightning è che consente di richiamare rapidamente azioni con l’API del trainer. Ha anche funzionalità come registrazione, checkpoint, controllo overfit, tra le altre. Inoltre, nel caso di Hydra, offre all’utente la flessibilità e le capacità di controllo degli errori.
Durante il recente evento NVIDIA GTC 2020 , NVIDIA ha annunciato il rilascio di Jarvis , un framework applicativo accelerato da GPU che utilizza NeMo. La società afferma che consentirà l’utilizzo di dati video e vocali per creare servizi di intelligenza artificiale conversazionale all’avanguardia. Secondo il comunicato dell’azienda , Jarvis affronta le sfide di grandi quantità di dati, risorse computazionali per l’addestramento dei modelli, tra gli altri, offrendo una pipeline di apprendimento end-to-end per l’IA conversazionale. Già, diverse organizzazioni, come Voca, un agente AI per il supporto del call center che vanta una clientela come Toshiba e AT&T; e Kensho, una società che fornisce servizi di trascrizione vocale automatica per la finanza e le imprese.
Nel prossimo futuro, si prevede che più aziende adotteranno NeMo per lo sviluppo dell’IA conversazionale.