Home / APP Ai / NVIDIA il modello NeMo per lo sviluppo di modelli vocali e linguistici e per creare un’IA conversazionale basato su PyTorch

NVIDIA il modello NeMo per lo sviluppo di modelli vocali e linguistici e per creare un’IA conversazionale basato su PyTorch

La scorsa settimana, NVIDIA ha annunciato il modello NeMo per lo sviluppo di modelli vocali e linguistici e per creare un’IA conversazionale. NeMo è un toolkit open source basato sul backend PyTorch. I moduli neurali costituiscono gli elementi costitutivi di questi modelli NeMo. Con NeMo, gli utenti possono comporre e addestrare architetture di reti neurali all’avanguardia.

Come può aiutare NeMo
NVIDIA NeMo consente di creare, addestrare e ottimizzare rapidamente l’AI conversazionale. Consiste delle collezioni NeMo core e NeMo. Mentre NeMo core aiuta a ottenere l’aspetto comune per tutti i modelli, le collezioni NeMo agiscono come gruppi di moduli e modelli specifici del dominio.

Ci sono parti principali di NeMo: modello, modulo neurale e tipo neurale.

I modelli contengono tutte le informazioni necessarie riguardanti la formazione, la messa a punto, l’aumento dei dati e i dettagli dell’infrastruttura.

I modelli di NeMo sono costituiti da:

Implementazione della rete neurale in cui tutti i modelli neurali sono collegati per l’addestramento e la valutazione
Tutte le attività di pre e post elaborazione come tokenizzazione e aumento
Le classi del set di dati da utilizzare con questo modello
L’algoritmo di ottimizzazione e il programma del tasso di apprendimento
Altri dettagli dell’infrastruttura
I moduli neurali sono architetture codificatore-decodificatore costituite da elementi costitutivi concettuali responsabili di diversi compiti. Fondamentalmente, il modulo neurale è la parte logica della rete neurale, che accetta un set di input e calcola un set di output.

Gli ingressi e le uscite hanno un tipo neurale che comprende la semantica, l’ordine degli assi e le dimensioni del tensore di ingresso e uscita, che garantisce il controllo semantico di sicurezza tra i moduli di NeMo. Gli input e gli output sono tipizzati con Neural Types, che sono coppie che contengono informazioni sul layout degli assi del tensore e sulla semantica dei suoi elementi. Il tipo di input che un modulo neurale accetta e quale output restituisce sono descritti rispettivamente dalle proprietà input_types e output_types.

Per migliorare il confronto, NeMo può essere pensato come un’astrazione tra uno strato e una rete neurale completa, che corrisponde a un pezzo concettuale della rete neurale, ad esempio un codificatore, un decodificatore o un modello di linguaggio.

L’ intelligenza artificiale conversazionale comprende tre aree principali della ricerca sull’intelligenza artificiale: riconoscimento vocale automatico (ASR), elaborazione del linguaggio naturale (PNL) e sintesi vocale (TTS o sintesi vocale). NeMo aiuta i professionisti ad accedere, riutilizzare e costruire sui modelli pre-formati in questo campo.

Parlando delle diverse collezioni, NeMo viene fornito con una collezione estendibile di modelli per ASR, NLP e TTS.

La raccolta NeMo Speech (nemo_asr) comprende modelli e elementi costitutivi per il riconoscimento vocale e dei comandi, l’identificazione e la verifica degli altoparlanti e il rilevamento dell’attività vocale. La collezione NLP di NeMo (nemo_nlp) ha modelli per rispondere a domande, punteggiatura, riconoscimento di entità nome, tra gli altri. Nella raccolta text-to-speech di NeMo (nemo_tts), ci sono generatori di spettrogrammi e vocoder che generano un discorso sintetico.

I modelli NeMo sono costruiti su PyTorch e PyTorch Lightning. Mentre PyTorch è più comunemente usato, PyTorch Lightning e Hydra (dall’ecosistema PyTorch) possono essere usati per una maggiore efficacia. Un altro vantaggio dell’integrazione con PyTorch Lightning è che consente di richiamare rapidamente azioni con l’API del trainer. Ha anche funzionalità come registrazione, checkpoint, controllo overfit, tra le altre. Inoltre, nel caso di Hydra, offre all’utente la flessibilità e le capacità di controllo degli errori.

Durante il recente evento NVIDIA GTC 2020 , NVIDIA ha annunciato il rilascio di Jarvis , un framework applicativo accelerato da GPU che utilizza NeMo. La società afferma che consentirà l’utilizzo di dati video e vocali per creare servizi di intelligenza artificiale conversazionale all’avanguardia. Secondo il comunicato dell’azienda , Jarvis affronta le sfide di grandi quantità di dati, risorse computazionali per l’addestramento dei modelli, tra gli altri, offrendo una pipeline di apprendimento end-to-end per l’IA conversazionale. Già, diverse organizzazioni, come Voca, un agente AI per il supporto del call center che vanta una clientela come Toshiba e AT&T; e Kensho, una società che fornisce servizi di trascrizione vocale automatica per la finanza e le imprese.

Nel prossimo futuro, si prevede che più aziende adotteranno NeMo per lo sviluppo dell’IA conversazionale.

Top

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi