Insegnare ai computer a dare un senso al linguaggio umano è stato a lungo un obiettivo degli informatici. Il linguaggio naturale che le persone usano quando parlano tra loro è complesso e profondamente dipendente dal contesto. Mentre gli esseri umani possono istintivamente capire che parole diverse vengono pronunciate a casa, al lavoro, a scuola, in un negozio o in un edificio religioso, nessuna di queste differenze è evidente a un algoritmo informatico.  

Nel corso dei decenni di ricerca, gli scienziati dell’intelligenza artificiale (AI) hanno creato algoritmi che iniziano a raggiungere un certo livello di comprensione. Anche se le macchine potrebbero non padroneggiare alcune delle sfumature e dei molteplici livelli di significato che sono comuni, possono cogliere abbastanza punti salienti per essere praticamente utili. 

 
Tutto ciò che serve è UN colpo.
Gli algoritmi che rientrano nell’etichetta ” elaborazione del linguaggio naturale (NLP) ” sono impiegati in ruoli nell’industria e nelle case. Ora sono abbastanza affidabili da essere una parte regolare del servizio clienti, della manutenzione e dei ruoli domestici. I dispositivi di aziende come Google o Amazon ascoltano regolarmente e rispondono alle domande quando vengono indirizzate con la giusta parola chiave. 

Come sono progettati gli algoritmi? 
Gli approcci matematici sono un misto di struttura rigida e basata su regole e probabilità flessibile. Gli approcci strutturali costruiscono modelli di frasi e frasi simili ai diagrammi che a volte vengono utilizzati per insegnare la grammatica ai bambini in età scolare. Seguono gran parte delle stesse regole che si trovano nei libri di testo e possono analizzare in modo affidabile la struttura di grandi blocchi di testo. 

 

Questi approcci strutturali iniziano a fallire quando le parole hanno più significati. L’esempio canonico è l’uso della parola “mosche” nella frase: “Il tempo vola come una freccia, ma la frutta vola come le banane”. Gli scienziati dell’IA hanno scoperto che gli approcci statistici possono distinguere in modo affidabile tra i diversi significati. La parola “mosche” potrebbe formare un nome composto il 95% delle volte, segue la parola “frutto”. 

In che modo gli scienziati dell’IA costruiscono modelli? 
Alcuni scienziati dell’IA hanno analizzato alcuni grandi blocchi di testo che sono facili da trovare su Internet per creare modelli statistici elaborati in grado di capire come il contesto cambia i significati. Un libro sull’agricoltura, ad esempio, sarebbe molto più probabile che usasse “mosche” come sostantivo, mentre un testo sugli aeroplani lo userebbe probabilmente come verbo. Un libro sulla spolveratura delle colture, tuttavia, sarebbe una sfida. 

Gli algoritmi di apprendimento automatico possono costruire modelli complessi e rilevare modelli che potrebbero sfuggire al rilevamento umano. Ora è comune, ad esempio, utilizzare le complesse statistiche sulle scelte di parole catturate in questi modelli per identificare l’autore. 

Alcuni algoritmi di elaborazione del linguaggio naturale si concentrano sulla comprensione delle parole pronunciate catturate da un microfono. Questi algoritmi di riconoscimento vocale si basano anche su miscele simili di statistiche e regole grammaticali per dare un senso al flusso di fonemi. 

[Correlati: come la PNL sta superando il collo di bottiglia dei documenti nei thread digitali ]

Come si sta evolvendo l’elaborazione del linguaggio naturale? 
Ora che gli algoritmi possono fornire un’utile assistenza e dimostrare le competenze di base, gli scienziati dell’IA si stanno concentrando sul miglioramento della comprensione e sull’aggiunta di una maggiore capacità di affrontare frasi con maggiore complessità. Alcune di queste intuizioni derivano dalla creazione di raccolte più complesse di regole e sottoregole per catturare meglio la grammatica e la dizione umana. Ultimamente, tuttavia, l’enfasi è sull’utilizzo di algoritmi di apprendimento automatico su grandi set di dati per acquisire maggiori dettagli statistici su come potrebbero essere utilizzate le parole. 
Gli scienziati dell’IA sperano che set di dati più grandi raccolti da libri, articoli e commenti digitalizzati possano fornire informazioni più approfondite. Ad esempio, Microsoft e Nvidia hanno recentemente annunciato di aver creato Megatron-Turing NLG 530B , un immenso modello in linguaggio naturale che ha 530 miliardi di parametri disposti in 105 strati. 

Il set di formazione include un mix di documenti raccolti da Internet aperto e alcune notizie reali che sono state curate per escludere la disinformazione comune e le notizie false. Dopo la deduplicazione e la pulizia, hanno costruito un set di allenamento con 270 miliardi di token composti da parole e frasi. 

L’obiettivo ora è migliorare la comprensione della lettura, la disambiguazione del senso delle parole e l’inferenza. Iniziare a mostrare ciò che gli umani chiamano “buon senso” sta migliorando man mano che i modelli acquisiscono dettagli più basilari sul mondo. 

In molti modi, i modelli e il linguaggio umano stanno iniziando a co-evolversi e persino a convergere. Man mano che gli esseri umani utilizzano più prodotti in linguaggio naturale, iniziano a prevedere intuitivamente ciò che l’IA può comprendere o meno e scegliere le parole migliori. Le IA possono adattarsi e la lingua cambia. 

Cosa stanno creando i giocatori affermati? 
Google offre un’elaborata suite di API per la decodifica di siti Web, parole pronunciate e documenti stampati. Alcuni strumenti sono costruiti per tradurre parole parlate o stampate in forma digitale, mentre altri si concentrano sulla ricerca di una comprensione del testo digitalizzato. Un’API cloud, ad esempio, eseguirà il riconoscimento ottico dei caratteri mentre un’altra convertirà il parlato in testo . Alcuni, come l’API di base del linguaggio naturale , sono strumenti generali con molto spazio per la sperimentazione, mentre altri sono strettamente focalizzati su attività comuni come l’elaborazione di moduli o le conoscenze mediche . Lo strumento Document AI, ad esempio, è disponibile in versioni personalizzate per il settore bancario o il team di approvvigionamento . 

 
Amazon offre anche un’ampia gamma di API come servizi cloud per la ricerca di informazioni salienti in file di testo, parole pronunciate o documenti scansionati. Il nucleo è Comprehend , uno strumento che identificherà frasi, persone e sentimenti importanti nei file di testo. Una versione, Comprehend Medical , è incentrata sulla comprensione delle informazioni mediche nelle note dei medici, nei rapporti di studi clinici e in altre cartelle cliniche. Offrono anche modelli di apprendimento automatico pre-addestrati per la traduzione e la trascrizione . Per alcuni casi d’uso comuni come l’esecuzione di un chatbot per il servizio clienti, AWS offre strumenti come Lex per semplificare l’aggiunta di un chatbot basato sull’intelligenza artificiale alla presenza sul Web di un’azienda. 

Microsoft offre anche un’ampia gamma di strumenti come parte di Servizi cognitivi di Azure per dare un senso a tutte le forme di linguaggio. Il loro Language Studio inizia con i modelli di base e ti consente di addestrare nuove versioni da distribuire con il loro Bot Framework . Alcune API come Azure Cognative Search integrano questi modelli con altre funzioni per semplificare la cura dei siti Web. Alcuni strumenti sono più applicati, come Content Moderator per rilevare un linguaggio inappropriato o Personalizer per trovare buoni consigli. 

Cosa stanno facendo le startup? 
Molte delle startup stanno applicando l’elaborazione del linguaggio naturale a problemi concreti con evidenti flussi di entrate. Grammarly , ad esempio, crea uno strumento che corregge documenti di testo per segnalare problemi grammaticali causati da problemi come il tempo verbale. La versione gratuita rileva gli errori di base, mentre l’abbonamento premium di $ 12 offre l’accesso a controlli degli errori più sofisticati come identificare il plagio o aiutare gli utenti ad adottare un tono più sicuro ed educato. L’azienda ha più di 11 anni ed è integrata con la maggior parte degli ambienti online in cui è possibile modificare il testo. 

 
SoundHound offre una “piattaforma di intelligenza artificiale vocale” che altri produttori possono aggiungere in modo che il loro prodotto possa rispondere ai comandi vocali attivati ​​da una “parola sveglia”. Offre capacità di “discorso al significato” che analizzano le richieste in strutture di dati per l’integrazione con altre routine software. 

Shield vuole supportare i manager che devono sorvegliare il testo all’interno dei loro uffici. Il loro software di “conformità delle comunicazioni” implementa modelli costruiti con più linguaggi per la “sorveglianza comportamentale delle comunicazioni” per individuare infrazioni come insider trading o molestie. 

Nori Health intende aiutare le persone malate a gestire condizioni croniche con chatbot addestrati per consigliare loro di comportarsi nel modo migliore per mitigare la malattia. Stanno iniziando con “terapie digitali” per condizioni infiammatorie come il morbo di Crohn e la colite. 

Smartling sta adattando gli algoritmi del linguaggio naturale per fare un lavoro migliore automatizzando la traduzione, in modo che le aziende possano fare un lavoro migliore fornendo software a persone che parlano lingue diverse. Forniscono una pipeline gestita per semplificare il processo di creazione di documentazione multilingue e documentazione di vendita su larga scala multinazionale.  

C’è qualcosa che l’elaborazione del linguaggio naturale non può fare? 
Gli algoritmi standard spesso riescono a rispondere alle domande di base, ma fanno molto affidamento sul collegamento di parole chiave con risposte stock. Gli utenti di strumenti come Siri di Apple o Alexa di Amazon imparano rapidamente quali tipi di frasi verranno registrati correttamente. Tuttavia, spesso non riescono a cogliere le sfumature o a rilevare quando una parola viene usata con un significato secondario o terziario. Le strutture delle frasi di base possono funzionare, ma non quelle più elaborate o elaborate con frasi subordinate. 

 
I motori di ricerca sono diventati abili nel prevedere o capire se l’utente desidera un prodotto, una definizione o un puntatore in un documento. Questa classificazione, tuttavia, è in gran parte probabilistica e gli algoritmi falliscono l’utente quando la richiesta non segue il modello statistico standard. 

Alcuni algoritmi stanno affrontando il problema inverso di trasformare le informazioni computerizzate in un linguaggio leggibile dall’uomo. Alcuni lavori di notizie comuni come la segnalazione dei movimenti del mercato azionario o la descrizione dell’esito di una partita possono essere ampiamente automatizzati. Gli algoritmi possono persino distribuire alcune sfumature che possono essere utili, specialmente in aree con grande profondità statistica come il baseball. Gli algoritmi possono cercare un punteggio in una casella e trovare schemi insoliti come un no hitter e aggiungerli all’articolo. I testi, però, tendono ad avere un tono meccanico ei lettori iniziano rapidamente ad anticipare le scelte delle parole che cadono in schemi prevedibili e formano cliché. 

Di ihal