Amazon fa strada nell’industria dei chip; Ora utilizza i propri chip di machine learning per i servizi Alexa

“Alexa, il servizio vocale basato su cloud di Amazon, alimenta i dispositivi Amazon Echo e più di 140.000 modelli di altoparlanti, luci, prese, smart TV e fotocamere intelligenti”.

Alla conferenza re: Invent dello scorso anno , AWS ha annunciato il lancio dei suoi chip Inferentia progettati per elaborare carichi di lavoro di machine learning. Questa settimana, AWS ha annunciato che i servizi Alexa saranno ora basati su AWS Inferentia, il loro chip. Di conseguenza, hanno migrato la maggior parte dei carichi di lavoro di inferenza ML basati su GPU alle istanze Inf1 di Amazon Elastic Compute Cloud (EC2).

Secondo Amazon, ogni mese decine di milioni di clienti interagiscono con Alexa per controllare i propri dispositivi domestici. Affermano che ci sono più di 100 milioni di dispositivi collegati ad Alexa e la migrazione ai chip Inferentia ha reso i servizi di Alexa ancora migliori. Rispetto alle istanze basate su GPU, Inferentia ha portato a una latenza end-to-end inferiore del 25% e un costo inferiore del 30% per i carichi di lavoro text-to-speech (TTS) di Alexa. La minore latenza, afferma Amazon, ha consentito agli ingegneri di Alexa di provare algoritmi più complessi e di migliorare l’esperienza complessiva di Alexa per i propri clienti.

In che modo Inferentia aiuta Alexa?
“La migrazione ad AWS Inferentia ha comportato una latenza end-to-end inferiore del 25% e un costo inferiore del 30% rispetto alle istanze basate su GPU per i carichi di lavoro text-to-speech di Alexa.”

La distribuzione di modelli di machine learning può richiedere molte risorse e l’inferenza è dove viene eseguita la maggior parte del lavoro effettivo se alcune applicazioni devono funzionare meglio. AWS Inferentia è progettato per gestire questi specifici carichi di lavoro di inferenza basati su ML.

Ogni chip AWS Inferentia contiene quattro NeuronCores dotati di una grande cache su chip. Questo aiuta a ridurre gli accessi alla memoria esterna, riducendo drasticamente la latenza e accelera le tipiche operazioni di deep learning come convoluzione e trasformatori. L’accelerazione delle operazioni di deep learning è fondamentale per Alexa.

Riconoscimento vocale automatico (ASR): in primo luogo, Alexa converte il suono in testo.
Natural Language Understanding (NLU): Alexa cerca quindi di capire ciò che ha sentito.
Text-To-Speech ( TTS ): Genera voce dal testo
Dei tre principali carichi di lavoro di inferenza di Alexa (ASR, NLU e TTS), i carichi di lavoro Text-to-Speech (TTS) venivano inizialmente eseguiti su istanze basate su GPU. Questo processo di sintesi vocale coinvolge anche pesantemente modelli di apprendimento automatico per costruire una frase che suoni naturale in termini di pronuncia, ritmo, connessione tra parole, intonazione, ecc.

Alexa incontra miliardi di richieste di inferenza ogni settimana. L’intero processo utilizza pesantemente l’intelligenza artificiale per trasformare il suono in fonemi , i fonemi in parole, le parole in frasi e le frasi in intenti. A questo si aggiungono le traduzioni multilingue. È prevista una certa latenza, ma Amazon non vuole lasciare alcuno spazio all’autocompiacimento o alla latenza e AWS Inferentia si assicura che i servizi siano di prim’ordine.

Amazon ha reso evidenti le sue ambizioni hardware già nel 2015. Prevedendo che la specializzazione hardware sarebbe stata un grosso problema, Amazon ha avuto un team ASIC personalizzato concentrato su AWS da allora. Nel 2016, James Hamilton, VP di AWS, ha dimostrato l’ASIC personalizzato che ha alimentato i server AWS per molti anni.

Oggi, AWS ha il proprio chip AI personalizzato, Inferentia e persino un processore personalizzato Graviton2. Finora, la maggior parte dei data center è alimentata dalle soluzioni integrate fornite da Intel , NVIDIA e AMD . Con il suo silicio di produzione propria, Amazon si sta gradualmente spostando verso l’autoaffidabilità simile a ciò che Apple ha fatto con i propri sforzi sul silicio. Negli ultimi due anni, Amazon ha aumentato il coinvolgimento delle proprie soluzioni hardware con i propri servizi. L’ultima è stata la migrazione del carico di lavoro di Alexa a Inferentia. Il data center è un enorme mercato per Intel e altri produttori di chip. E AWS è un gigante quando si tratta di data center. È leader nel segmento cloud e sfoggia un portafoglio diversificato di clienti come Netflix.

Se Amazon decide di incorporare le sue soluzioni integrate fatte in casa per i suoi data center, sarà un duro colpo per i produttori di chip che fanno molto affidamento sull’offerta di servizi di silicio. Google ha TPU e ora AWS ha Inferentia. Se i fornitori di servizi cloud possono eguagliare i benchmark delle prestazioni dei migliori produttori di chip, allora sarà l’inizio di una nuova ondata di infrastruttura come servizio. Per aziende come Amazon che hanno fatto breccia nella base dei consumatori, nei servizi B2B, nella ricerca sull’intelligenza artificiale e ora nel silicio, non può esserci momento migliore.

Di ihal