Sama mira a portare una maggiore uguaglianza nell’etichettatura della folla dei set di dati con nuovi $ 70 milioni
 
 
Sama, una società che fornisce dati per addestrare sistemi di apprendimento automatico, ha raccolto $ 70 milioni in una serie B trovata guidata da CDPQ con la partecipazione di First Ascent Ventures, Salesforce Ventures, Vistara Capital Partners e investitori esistenti. Il CEO Wendy Gonzalez afferma che l’azienda utilizzerà i finanziamenti per far crescere la sua piattaforma con nuovi prodotti che “consentono ai team di gestire l’intero ciclo di vita dell’IA”.

Secondo Anaconda, gli scienziati dei dati trascorrono circa il 45% del loro tempo in attività di preparazione dei dati, incluso il caricamento e la pulizia dei dati . Un rapporto separato di Alation ha rilevato che il 97% dei leader di dati ha subito le conseguenze dell’ignoranza dei dati, della perdita di nuove opportunità di guadagno, delle previsioni inadeguate delle prestazioni o degli investimenti sbagliati. Un altro studio , condotto da MIT Technology Review Insights e commissionato da Databricks, rivela che l’impatto aziendale dell’apprendimento automatico è limitato in gran parte dalle sfide nella gestione del ciclo di vita end-to-end.

 
 
Fondata da Leila Janah, Sama, con sede a San Francisco, California, precedentemente Samasource, ha sviluppato le sue prime relazioni con i centri di consegna partner nel 2018, concentrandosi sull’inserimento dei dati, l’analisi del sentiment e la trascrizione dei dati. Nel 2009, l’azienda ha lanciato la versione iniziale della sua piattaforma tecnologica, SamaHub, e ha avviato una serie di progetti commerciali, tra cui la fornitura di immagini e annotazioni utilizzate da Microsoft per realizzare l’ Xbox Kinect dell’azienda .

 
“Janah credeva che dare un lavoro significativo e con un salario dignitoso fosse il modo migliore per sollevare in modo permanente le persone dalla povertà”, ha detto Gonzalez a VentureBeat via e-mail. “Ad oggi, siamo l’unico fornitore di dati sulla formazione per l’intelligenza artificiale con un programma di formazione e occupazione responsabile che fornisce competenze professionali fruibili alle comunità svantaggiate per avvicinarci a un futuro più equo dell’intelligenza artificiale”.

Piattaforma dati
Oggi, Sama ospita una piattaforma crowd-powered attraverso la quale le aziende possono ottenere dati etichettati per addestrare modelli di intelligenza artificiale, come video, immagini, forme generate al computer, radar e linguaggio naturale. I clienti in settori come i trasporti e la navigazione, la vendita al dettaglio e l’e-commerce, la robotica e la produzione pagano per i set di dati mentre i “crowdworker” forniscono annotazioni in cambio del pagamento di Sama.

Sama compete con una serie di piattaforme di etichettatura e annotazione dei dati sul mercato, tra cui DefinedCrowd , CrowdFlower , Labelbox , Superb AI e Scale.ai , nonché con operatori storici come Amazon Mechanical Turk. Ma l’azienda afferma di offrire un prodotto superiore monitorando 160 milioni di eventi al mese per migliorare la sua piattaforma e i suoi processi, come gli strumenti di annotazione assistiti dall’apprendimento automatico per i crowdworker.

 

“I nostri etichettatori hanno un mandato medio di tre anni e sono esperti in materia che lavorano con i nostri clienti per identificare i casi limite e consigliare le migliori pratiche di annotazione”, spiega Sama sul suo sito web. “Il campionamento fornisce feedback ai responsabili della qualità per garantire che i team lavorino in modo efficiente ed efficace, mentre le attività di “blocco” e gli script avanzati rilevano gli errori nelle prime fasi della pipeline.”

 
Quando un’azienda stipula un contratto con Sama, la piattaforma di Sama crea “micromodelli” che vengono utilizzati per generare dati preetichettati per assistere gli etichettatori con l’annotazione. Gli annotatori convalidano le etichette generate dall’apprendimento automatico mentre Sama collabora con l’azienda per identificare i casi limite e consigliare le migliori pratiche di annotazione.

Dopo l’annotazione e la distribuzione, Sama può fornire feedback continui e monitorare i modelli in produzione. Oltre a ciò, la piattaforma può generare dati su annotazioni “a livello di frame” e casi limite, producendo report progettati per aiutare a immettere più rapidamente i modelli sul mercato.

Impatto
L’apprendimento supervisionato, uno dei tipi di modelli che richiedono l’addestramento delle etichette, è la forma più comune di apprendimento automatico utilizzata in azienda. In un recente rapporto O’Reilly , l’82% degli intervistati ha affermato che la propria organizzazione ha scelto di adottare l’apprendimento supervisionato rispetto all’apprendimento non supervisionato (che non richiede etichette) o semi-supervisionato (che richiede solo una piccola quantità di etichette). E secondo  Gartner, l’apprendimento supervisionato rimarrà il tipo di apprendimento automatico che le organizzazioni sfruttano maggiormente fino al 2022.

Tuttavia, le etichette possono portare i segni distintivi della disuguaglianza. Ad esempio, si stima che meno del 2% dei lavoratori di Mechanical Turk provenga dai paesi del Sud del mondo, con la stragrande maggioranza proveniente da Stati Uniti e India. ImageNet, un set di dati essenziale per i recenti progressi nella visione artificiale, non sarebbe stato possibile senza il lavoro degli etichettatori di dati. Ma gli stessi lavoratori di ImageNet hanno guadagnato un salario medio di $ 2 all’ora, con solo il 4% che guadagna più del salario minimo federale degli Stati Uniti di $ 7,25 all’ora, di per sé molto diverso da un salario dignitoso.

 
Sama afferma di pagare un tasso di annotazione più elevato rispetto ai suoi concorrenti – circa $ 8 al giorno – con la missione di fornire opportunità alle comunità nelle regioni meno servite. In uno studio randomizzato di tre anni condotto da MIT e Innovations for Poverty Action, i crowdworker di Nairobi, in Kenya, che hanno ricevuto sia formazione che inclusione nel pool di assunzioni di Sama, hanno avuto tassi di disoccupazione più bassi e guadagni mensili medi più alti rispetto ai crowdworker che hanno ricevuto solo formazione.

 

Lo studio non ha confrontato i risultati dei crowdworker di Sama con quelli impiegati con altre startup di etichettatura dei dati. Ma Gonzalez afferma che i risultati “indicano i fatti indiscutibili” e “dimostrano il valore del modello di impatto [di Sama] sulle comunità a livello globale”.

 
Sama, che impiega 120 dipendenti a tempo pieno e 3.500 annotatori, ha clienti in Google, Nvidia, GM, Walmart, Getty e oltre il 25% di Fortune 50. I suoi crowdworker hanno annotato 1,5 miliardi di punti dati solo nel 2020 e con le ultime round di finanziamento, il capitale totale di Sama raccolto ammonta a quasi 85 milioni di dollari.

“I nostri clienti includono aziende Fortune 2000″, ha affermato Gonzalez. “In particolare, i dati di allenamento di Sama … sono stati recentemente sfruttati da Google per alimentare il suo algoritmo AI per Project Guideline , che aiuta le persone con disabilità visive a funzionare in modo indipendente. Con i nostri dati di allenamento accurati e di alta qualità, l’applicazione è in grado di approssimare con precisione la posizione del corridore e fornire un feedback audio in modo che il corridore possa auto-correggersi. Ora, stiamo lavorando per ridimensionare le linee guida del progetto con l’obiettivo di rendere la soluzione un’opzione accessibile per la comunità dei non vedenti [e] ipovedenti”.

 

Di ihal