Amazon ha rivelato oggi il suo servizio AI SageMaker, consentendo ai suoi clienti di addestrare modelli di apprendimento automatico su vasta scala mantenendo bassi i costi. Amazon utilizza nuove tecniche per mantenere bloccata la potenza di calcolo richiesta fornendo prestazioni comparabili.
Quando SageMaker acquisisce i dati per addestrare un modello, utilizza un algoritmo di streaming che effettua solo un passaggio sui dati che viene alimentato. Mentre altri algoritmi possono vedere aumenti esponenziali della quantità di tempo e potenza di elaborazione necessari, gli algoritmi di Amazon no. Mentre i dati sono trasmessi nel sistema, l’algoritmo regola il suo stato – una rappresentazione persistente dei modelli statistici presenti nelle informazioni fornite a SageMaker per addestrare un particolare sistema.
Tuttavia, questo stato non è un modello di apprendimento automatico addestrato: è un’astrazione dei dati inviati a SageMaker che possono quindi essere utilizzati per addestrare un modello. Ciò fornisce una serie di vantaggi utili, come rendere più facile per Amazon la distribuzione di un modello. SageMaker può confrontare gli stati degli stessi algoritmi che lavorano su dati diversi su più macchine nel corso del processo di formazione, per assicurarsi che tutti i sistemi condividano correttamente una rappresentazione dei dati che vengono nutriti.
Quella stessa rappresentazione rende più facile l’ottimizzazione degli iperparametri di un modello di apprendimento macchina risultante. Questi parametri, che governano determinate funzioni del modello, sono fondamentali per creare il miglior sistema di apprendimento automatico. Tradizionalmente, gli scienziati dei dati ottimizzerebbero quei parametri ripetendo ogni volta lo stesso modello con parametri diversi e scegliendo il modello che crea il risultato finale più accurato.
Tuttavia, questo può essere un processo che richiede molto tempo, in particolare per i modelli creati utilizzando grandi quantità di dati. Con SageMaker, Amazon non deve fare tutto il lavoro pesante di riqualificazione, dal momento che può semplicemente utilizzare lo stato dell’algoritmo di streaming.
Tutto questo è al servizio della creazione di un sistema in grado di gestire set di dati incredibilmente grandi eseguiti su scala globale, aspetto importante sia per il lavoro di Amazon sui propri progetti di intelligenza artificiale, sia per le esigenze dei clienti.