Scale AI lancia un servizio di etichettatura rapida dei dati 

Durante il boom dell’intelligenza artificiale nella creazione di applicazioni, le aziende devono affrontare un problema significativo di etichettatura dei dati, soprattutto quando si tratta di etichettare immagini o altri contenuti multimediali su cui desiderano addestrare algoritmi di deep learning.

Oggi il fornitore di etichettatura e infrastruttura dei dati Scale AI ha lanciato un servizio chiamato Scale Rapid che mira a risolvere questo problema etichettando un campione di dati entro una o tre ore. Gli utenti possono rivedere il lavoro per assicurarsi che l’etichettatura sia stata eseguita correttamente, ripetere le istruzioni di etichettatura se necessario e quindi accelerare per fare in modo che Scale AI etichetti il ​​resto del loro set di dati.

 
Questo è l’ultimo di una serie di prodotti che Scale AI ha lanciato nell’ultimo anno con l’obiettivo di mantenere la propria leadership nel settore dell’etichettatura. Ad aprile, la società ha raccolto $ 325 milioni , portando il suo totale a oltre $ 602 milioni. Scale AI afferma di aver superato i 100 milioni di dollari di entrate ricorrenti annuali e sta raddoppiando la crescita di anno in anno. La sua valutazione di $ 7,3 miliardi supera il valore pubblico noto della maggior parte dei concorrenti, tra cui Labelbox, Hive, Snorkel AI, Mighty AI, Appen, Tasq.AI, Cloud Factory, Samsource e SupperAnnotate.

Carichi di lavoro del processo di etichettatura dei dati
Alcune aziende vantano l’accesso a enormi eserciti di appaltatori pronti a etichettare i dati, ma il chief technology officer di Scale AI Brad Porter ha affermato di non vedere nessuno promettere le stesse garanzie di qualità e velocità offerte da Scale Rapid.

Le aziende che creano applicazioni di intelligenza artificiale di solito fanno una delle due cose, ha detto Porter. Usano un set di dati esistente che è già stato etichettato ma tende a essere dati obsoleti e non è facile adattarsi alle nuove applicazioni o scelgono Mechanical Turk, Appen o un altro servizio di etichettatura di terze parti che impiega persone per etichettare i dati per l’azienda .

I concorrenti di Scale AI possono fornire uno strumento per il flusso di lavoro di etichettatura, ma possono essere necessarie settimane per impostare un processo interno che garantisca che l’etichettatura sia completata in modo accurato, oltre a essere eseguita in modo tale da consentire ai modelli di intelligenza artificiale di funzionare correttamente. In genere, le aziende impegnate in quest’area di lavoro devono assumersi la responsabilità di garantire la qualità dell’etichettatura dei dati. Tuttavia, Scale Rapid è progettato per garantire risultati di alta qualità gestendo completamente il processo di etichettatura dall’inizio alla fine, ha affermato Porter.

Come funziona Scale Rapid?
Quando un ricercatore o sviluppatore di machine learning (ML) inizia un processo di etichettatura per un set di dati, scrive istruzioni su come vogliono etichettare i dati. Le istruzioni possono riguardare varie attività, come etichettare cosa c’è in un’immagine, annotare una clip audio o determinare se una revisione del contenuto è positiva o negativa. Lo sviluppatore carica quindi da 10 a 50 esempi dei dati per garantire che gli etichettatori seguano correttamente le istruzioni.

Scale AI afferma che ottiene quei risultati in una o tre ore e consente allo sviluppatore di assicurarsi che le soglie di qualità vengano soddisfatte. In caso contrario, lo sviluppatore può inviare altri 10-50 campioni. Una volta che uno sviluppatore ha confermato che le istruzioni vengono seguite correttamente, può caricare 500-1000 immagini e ridimensionarle da lì.

Scale AI ha una fonte di lavoro di oltre 100.000 etichettatori, secondo Porter. L’azienda determina se un’attività richiede etichettatori esperti e aiuta a evitare le carenze riscontrate in alcuni processi di etichettatura popolari, come il voto di consenso. Nella votazione per consenso, un’attività di etichettatura può essere inviata a cinque persone e il risultato della maggioranza viene preso come etichetta valida. Il problema è che la maggioranza può sbagliare. Ad esempio, se l’attività richiede che qualcuno distingua tra un corvo e un gracchio, quattro etichettatori su cinque potrebbero scambiare un gracchio per il più comunemente noto corvo. Quindi Scale AI introduce quelli che chiama “osservatori esperti”. Quindi tenta di automatizzare il processo di etichettatura con ML.

Scale AI segnala l’adozione rapida di Scale Rapid
Scale AI segnala una forte adozione di Scale Rapid durante il periodo di beta privata ad accesso anticipato dello strumento, con oltre 750.000 attività già completate per i clienti che includono SpaceX, Cornell, Epson, Adobe, Square e TimberEye. (Scale AI ha recentemente pubblicato un caso di studio da TimberEye .)

Il vantaggio di Scale AI, afferma Porter, risiede nelle sue origini nell’etichettatura dei dati nel settore dei veicoli autonomi . Il 24enne fondatore e CEO dell’azienda, Alexandr Wang, ha lasciato il MIT e ha iniziato a costruire uno strumento di etichettatura lidar per soddisfare standard di etichettatura estremamente rigorosi. Man mano che Scale AI è cresciuta per servire altri settori, ha portato con sé la sua esperienza di etichettatura, offrendo alle aziende accordi sul livello di servizio (SLA) per garantire la qualità.

L’anno scorso, l’azienda si è orientata per assistere le aziende con esigenze di dati in ogni fase del ciclo di vita dello sviluppo dell’IA, dall’annotazione dei dati al debug dei dati, ai miglioramenti dei modelli e ai servizi completamente gestiti. Scale AI attualmente copre più settori e serve centinaia di clienti, tra cui Brex, OpenAI, US Army, SAP, Etsy e PayPal.

Di ihal