L’approccio unico di Amazon ad AutoML rende l’AI accessibile alle aziende
AutoML è una tecnica in cui i clienti portano i propri dati e se ne vanno con un modello senza preoccuparsi del complesso flusso di lavoro coinvolto nella formazione dei modelli di machine learning. Semplifica notevolmente l’approccio alla preparazione dei dati, alla progettazione delle funzionalità, alla selezione dei modelli e all’ottimizzazione degli iperparametri sulla base di algoritmi collaudati.


Le offerte di ML Platform as a Service (PaaS) basate su cloud pubblico come Azure ML, IBM Watson Studio e Google Cloud AI hanno un componente AutoML. AWS ha tardato a portare le funzionalità AutoML sulla sua piattaforma SageMaker. Dall’annuncio di SageMaker Autopilot nel 2019, Amazon ha costantemente migliorato le funzionalità AutoML della sua piattaforma ML gestita.

Con la recente aggiunta di SageMaker JumpStart, AWS dispone ora dell’intero spettro di funzionalità AutoML che coprono le aree di regressione, classificazione, visione ed elaborazione del linguaggio naturale.



Sebbene AWS non chiami ufficialmente Amazon SageMaker Autopilot e i servizi JumpStart AutoML, sono alternative ad Azure AutoML e Google Cloud AutoML.

Amazon SageMaker Autopilot si rivolge a scenari quali previsioni di vendita, sistemi di raccomandazione, instradamento del call center e ottimizzazione della pubblicità che si basano su set di dati generalmente archiviati in file CSV, database relazionali e database NoSQL.

Basato sugli algoritmi XGBoost e Linear Learner, Autopilot è ideale per affrontare problemi di regressione lineare, regressione logistica e classificazione binaria o multivariata. Con l’aggiunta di algoritmi di deep learning, Autopilot può gestire dati complessi che non sono separabili linearmente.

Il principale elemento di differenziazione di Amazon SageMaker Autopilot è la generazione automatica dei notebook come parte del flusso di lavoro AutoML. I clienti possono creare un processo Autopilot solo per generare notebook invece di eseguire l’intero processo. Questi notebook si basano sui notebook Juypter standard e open source popolari nella comunità di data science. Sviluppatori e data scientist possono scaricare i notebook per capire come è stata eseguita la preparazione dei dati e l’algoritmo utilizzato per le singole pipeline create per ciascun candidato.

Annunciato a re: Invent 2020, Amazon SageMaker JumpStart è l’ultima aggiunta ad Amazon SageMaker Studio, la piattaforma di sviluppo ML integrata per i clienti AWS. Mentre Amazon SageMaker Autopilot si occupa di dati strutturati normalmente archiviati in un formato tabulare, SageMaker JumpStart si concentra sulla visione e sui domini NLP.

Ci sono tre componenti in Amazon SageMaker JumpStart: distribuzione di modelli open source, soluzioni e modelli personalizzati costruiti da modelli open source esistenti basati su set di dati personalizzati più piccoli.

Amazon ha sfruttato il modello zoo ufficiale offerto da TensorFlow e PyTorch per fornire la distribuzione del modello open source. Ci sono oltre 150 modelli disponibili in SageMaker Studio che possono essere distribuiti con un solo clic. AWS scarica i modelli, li registra con SageMaker ed espone un endpoint per l’inferenza.

Ad esempio, puoi esporre un modello ResNet o MobileNet SSD per la classificazione delle immagini e il rilevamento di oggetti con un solo clic. Una volta distribuito il modello, SageMaker punta a un notebook Jupyter con codice di esempio per richiamare l’endpoint di inferenza.

La distribuzione di modelli di visione artificiale esistenti addestrati con set di dati pubblici come ImageNet o CIFAR-100 potrebbe non essere molto utile per le aziende. Hanno bisogno di modelli addestrati con set di dati personalizzati allineati a un problema aziendale specifico. Ad esempio, un’organizzazione potrebbe aver bisogno di identificare le persone senza maschere in attesa nell’area della reception. Non esiste un modello disponibile pubblicamente per rilevare in modo affidabile i volti senza maschera.

Con Amazon SageMaker JumpStart, i clienti possono portare un set di dati etichettato e mettere a punto un modello open source esistente per soddisfare i loro requisiti. Ciò può essere ottenuto semplicemente caricando le immagini su un bucket Amazon S3 e puntando SageMaker JumpStart su di esso. Questo approccio non richiede set di dati di grandi dimensioni. Con almeno 100 immagini per ogni classe, hai la garanzia di ottenere un modello accurato.

Dietro le quinte, Amazon SageMaker JumpStart utilizza il transfer learning, una tecnica collaudata per AutoML. Se sei un data scientist o un ingegnere ML che ha familiarità con l’ottimizzazione degli iperparametri, puoi anche modificare alcune impostazioni come la velocità di apprendimento e il numero di epoche utilizzate per la messa a punto del modello.

Quasi tutte le soluzioni AutoML disponibili si basano sull’apprendimento del trasferimento, ma ciò che rende unico Amazon SageMaker JumpStart è la trasparenza. Puoi scegliere qualsiasi modello che supporti la riqualificazione e personalizzarlo tramite l’opzione di messa a punto disponibile in SageMaker Studio. Puoi anche selezionare il tipo di istanza EC2 utilizzata per trasferire l’apprendimento e l’inferenza.

Sia Amazon SageMaker Autopilot che JumpStart dispongono di SDK Python nativo per l’integrazione con i notebook Jupyter, che fa sentire i data scientist a casa.

I modelli distribuiti tramite SageMaker JumpStart possono essere ottimizzati per implementazioni cloud ed edge tramite SageMaker Neo, il componente della piattaforma che ha lo scopo di compilare i modelli per diversi ambienti.

AWS aggiunge continuamente funzionalità e capacità ad Amazon SageMaker per renderlo una delle piattaforme ML gestite più complete. Con un’enfasi sulla trasparenza e la spiegabilità, SageMaker ha le migliori capacità AutoML sotto forma di Autopilot e JumpStart.

Di ihal