I nuovi set di dati OTS (Off-the-Shelf) di Appen accelerano la distribuzione dell’IA
Appen Limited (ASX: APX), fornitore leader di dati di formazione di alta qualità per le organizzazioni che realizzano sistemi di IA efficaci su larga scala, ha annunciato oggi nuovi set di dati OTS (off-the-shelf) . Questi set di dati sono progettati per rendere più facile e veloce per le aziende acquisire i dati di formazione di alta qualità necessari per accelerare la loro intelligenza artificiale (AI) e l’apprendimento automatico(ML) progetti. I nuovi set di dati OTS includono il movimento del corpo umano e suoni innovativi del pianto del bambino, nonché immagini e discorsi con script con testo adatto per il riconoscimento ottico dei caratteri (OCR) per lingue molto richieste ma difficili da acquisire, come l’arabo, il croato e il greco. , Ungherese, thailandese e altro ancora. Con i set di dati ampliati, l’offerta OTS totale di Appen include oltre 250 set di dati, che comprendono oltre 11.000 ore di audio, oltre 25.000 immagini e oltre 8,7 milioni di parole in 80 lingue e più dialetti.
I set di dati OTS di Appen sono uno strumento veloce ed economico per avviare un progetto AI o ML con dati di formazione coerenti e di alta qualità. I team che espandono le loro capacità di intelligenza artificiale possono anche sfruttare i set di dati OTS per migliorare efficacemente l’accuratezza, sviluppare nuove capacità di modello e incorporare altri miglioramenti nei loro modelli di intelligenza artificiale. Un set di dati OTS viene spesso consegnato in una settimana, ad esempio, rispetto alle otto-dodici settimane per un nuovo progetto di raccolta e annotazione di set di dati, o anche più a lungo, a seconda della complessità. Tutti i set di dati Appen sono sviluppati utilizzando una metodologia di partecipazione completamente trasparente, in modo che gli specialisti di intelligenza artificiale possano essere certi che i loro dati siano puliti e conformi, eliminando il potenziale rischio di contraccolpi e danni alla reputazione.
“I team di intelligenza artificiale di tutto il mondo che lavorano su progetti con scadenze ravvicinate e requisiti di dati flessibili possono trarre vantaggio dall’utilizzo di set di dati standard”, ha affermato Wilson Pang, CTO di Appen. “I set di dati OTS riducono il time-to-value e forniscono l’accesso a dati di alta qualità a un costo totale inferiore rispetto ai metodi tradizionali. Noi di Appen adottiamo le misure necessarie per garantire che tutti i nostri set di dati siano di origine etica e demograficamente bilanciati, consentendo alle aziende di mantenere pratiche di IA responsabili riducendo al minimo i pregiudizi nei loro modelli e garantendo un trattamento equo degli annotatori di dati. Conosci sempre la qualità precisa di un set di dati OTS, che aiuta a costruire un’IA migliore che funzioni nel mondo reale “.
MediaInterface fornisce soluzioni di tecnologia linguistica a istituti sanitari in Germania e in altre parti d’Europa da oltre 20 anni. Quando l’azienda si stava espandendo in Francia, aveva un software completamente localizzato ma mancavano di dati lessicali francesi, in particolare nomi e luoghi francesi, a cui spesso si fa riferimento nelle informazioni sulla salute dei pazienti. Utilizzando i set di dati Appen OTS, MediaInterface ha acquisito circa 21.000 nomi francesi e 14.000 nomi di luoghi. “I dati critici di Appen sono stati incorporati nel nostro lessico di base per lanciarci con successo in un nuovo mercato, e questo ci aiuta a costruire nuovi vocabolari per i nostri clienti e rafforzare il nostro approccio anche per i futuri lanci sul mercato”, ha affermato Ines Wendler, product manager presso MediaInterface.
Gli esperti di IA più esperti combinano set di dati OTS con raccolta di dati su richiesta e progetti di annotazione per soddisfare le loro complesse esigenze di dati di addestramento del modello di intelligenza artificiale. Appen è leader nell’offrire un supporto continuo attraverso una gamma di servizi di raccolta dati specifici, come l’annotazione continua dei dati e l’etichettatura intelligente, attraverso strumenti basati sull’intelligenza artificiale e flussi di lavoro automatizzati per massimizzare l’efficienza.
“Interagiamo con l’IA dal momento in cui ci svegliamo fino al momento in cui andiamo a letto, attraverso assistenti virtuali, chatbot, motori di ricerca, social network, dispositivi medici, auto intelligenti e altre applicazioni”, ha affermato Judith Bishop, senior director di AI di Appen specialisti, che guida un team di 100 linguisti AI ed esperti di lingue. “La lingua è spesso l’interfaccia principale per molti di questi avvincenti casi d’uso dell’IA, quindi per garantire un’ottima esperienza, il modello deve essere addestrato per funzionare per tutti. L’impegno di Appen per dati di alta qualità e uno sviluppo di IA responsabile ed etico consente alle aziende che acquistano i nostri set di dati standard di accelerare i loro progetti di IA con piena fiducia nei loro dati “.
Unendosi alle centinaia di dataset esistenti già presenti su appen.com , l’elenco dei nuovi dataset Appen OTS ora disponibili include:
Discorso con script per arabo (Egitto), arabo (Arabia Saudita), arabo (Emirati Arabi Uniti), Khmer centrale (Cambogia), croato, greco, ungherese, polacco, spagnolo (Spagna) e turco
OCR di immagini per testo stampato in cinese semplificato, testo stampato in thailandese e testo stampato in finlandese – Include cartelloni preregistrati, imballaggi esterni, insegne, riviste e menu per addestrare e aggiornare i modelli OCR di visione artificiale
Movimento del corpo umano (Cina): include video annotati di persone in movimento, monitorati a livello di pixel, adatti per lo sviluppo di giochi, app di fitness e altro
Baby crying audio (Cina) – Include suoni del bambino preregistrati e annotati che possono essere utilizzati per addestrare i modelli AI a riconoscere diversi suoni di pianto e allertare i genitori