ToxMod di Modulate utilizza l’intelligenza artificiale per scansionare la chat vocale del gioco alla ricerca di discorsi tossici
Oggi, Modulate ha lanciato ToxMod, un nuovo servizio che utilizza l’intelligenza artificiale per scansionare la chat vocale nei videogiochi alla ricerca di discorsi tossici o altri comportamenti scorretti. Segnala tutto, dal discorso razzista al comportamento predatorio, contestualizzando il modo in cui le persone dicono le parole per dire agli sviluppatori di giochi cosa richiede la loro attenzione.
Modulate afferma che il servizio è il primo servizio di moderazione vocale nativo al mondo, che consente alle aziende di monitorare i discorsi tossici in tempo reale e offre alle società di giochi la possibilità di rilevare le parole odiose in modo tempestivo. È complementare ad altre tecnologie relative alla voce presso la società con sede a Cambridge, Massachusetts, che utilizza tecniche di apprendimento automatico per creare “skin vocali” personalizzabili per i giochi. Questi consentono ai giocatori di modificare la propria voce in modo che possano avere voci divertenti o mascherare la propria identità.
ToxMod aiuta gli sviluppatori a rilevare discorsi tossici, dirompenti o altrimenti problematici in tempo reale e ad intraprendere automaticamente azioni sfumate, come bloccare singole parole, come insulti razzisti o identificare informazioni, come un numero di telefono. Ovviamente, questo è il gioco di cui stiamo parlando, e molti giochi hanno un discorso approssimativo come ante per il gioco multiplayer. ToxMod utilizza sofisticati modelli di apprendimento automatico per capire non solo ciò che ogni giocatore sta dicendo, ma come lo sta dicendo, comprese le loro emozioni, il volume, la prosodia e altro ancora. In breve, dice la società, conosce la differenza tra “fanculo” e “fanculo sì!”
L’obiettivo è aiutare a eliminare i membri tossici della comunità su larga scala in modo che gli sviluppatori possano stare al passo con il numero di autori di reato e creare un vero cambiamento nelle comunità di gioco.
Modulate ha raccolto 2 milioni di dollari da 2Enable Partners e Hyperplane Venture Capital e altri 4 milioni di dollari all’inizio di quest’anno.
“La missione di Modulate è rendere la chat vocale più inclusiva e coinvolgente per la socializzazione online”, ha dichiarato Mike Pappas, CEO di Modulate, in un’intervista a GamesBeat. “Al centro di ciò che abbiamo fatto è utilizzare tecniche di apprendimento automatico per elaborare l’audio, sia per cambiare l’esperienza del giocatore attraverso skin vocali o attraverso una migliore analisi di ciò che sta realmente accadendo all’interno del gioco.”
Radici nell’apprendimento automatico
I cofondatori di Modulate Carter Huffman (ora chief technology officer) e Pappas si sono incontrati al college al MIT quando Pappas si è fermato per aiutare a risolvere un problema di fisica che Huffman stava riflettendo su una lavagna del corridoio. Huffman ha continuato a perfezionare le sue abilità nell’apprendimento automatico per veicoli spaziali presso il Jet Propulsion Laboratory, e si è interessato alle reti generative antagoniste, una tecnologia di rete neurale che in seguito sarebbe diventata utile per convertire le voci umane. Huffman ha concepito Modulate nel 2015 e lo ha incorporato nell’autunno del 2017. Pappas si è unito anche come fondatore; Terry Chen, vice presidente dell’audio, ha anche contribuito a far decollare l’azienda.
Nel 2019, Modulate ha introdotto nel mondo il concetto di “skin per la voce”. Il servizio VoiceWear consente ai giocatori di assumere la voce autentica del personaggio scelto, trascendendo i cambia voce della vecchia scuola. Di tutti i feedback che hanno ricevuto sulle skin vocali, un commento li ha incuriositi di più. Molti giocatori di tutti i dati demografici hanno riferito che le skin vocali erano l’unica cosa che consentiva loro di partecipare alla chat vocale. Parlando con questi giocatori, Modulate si è reso conto che molti giocatori semplicemente non si sentono a proprio agio nel mettere la loro vera voce là fuori data la sfortunata tossicità e molestie che sono fin troppo diffuse in queste comunità. Ed era chiaro che questo non era solo aneddotico: gli studi dimostrano che il 48% di tutta la tossicità nel gioco ora avviene attraverso la voce.
Le skin vocali hanno ottenuto molta trazione e la società ha scoperto che molta tecnologia di rete neurale dietro la chat vocale potrebbe essere utilizzata anche per altri scopi.
“Abbiamo iniziato a costruire non solo skin vocali, ma anche a vedere se potevamo moderare la chat vocale direttamente quando le persone sono tossiche nella chat vocale”, ha detto Huffman. “Vogliamo aiutare i responsabili della community e i moderatori ad agire in base a quella chat vocale in modo proattivo, ed è da lì che proviene questo nuovo prodotto ToxMod.”
Alimentando i segnali vocali in uno strumento di moderazione, ToxMod potrebbe valutare la tossicità delle chat vocali nel momento in cui si verificano, con una precisione molto maggiore rispetto a qualsiasi altro strumento disponibile. La chiave qui è la capacità di analizzare non solo ciò che viene detto, ma anche come viene detto, comprese l’emozione, la prosodia e il volume con cui si parla.
Gestire la tossicità
ToxMod tiene d’occhio i cattivi attori per assicurarsi che nessuno stia danneggiando le esperienze degli altri. ToxMod può fare tutto questo direttamente sul dispositivo di ogni giocatore, in tempo reale, sbloccando due funzionalità uniche. Il primo è che ToxMod può reagire in tempo reale a discorsi offensivi, non solo interrompendo intere conversazioni, ma anche intraprendendo azioni più sfumate come bloccare insulti razzisti o informazioni personali.
Il secondo è che ToxMod può preservare la privacy dei giocatori meglio di altri strumenti di moderazione vocale, ha affermato la società. Poiché sta elaborando i dati sul dispositivo, l’unico motivo per cui invierebbe i dati dove chiunque altro può sentirlo sarebbe se rileva un’alta probabilità di tossicità. Anche allora, la prima fermata per quei dati sarebbero i server sicuri di Modulate, che eseguono algoritmi ancora più sofisticati per convalidare il sospetto di tossicità. Solo quando si ha la forte sensazione che si stia verificando qualcosa di problematico, l’audio verrà condiviso con un team di moderazione umano. Poiché questa catena di comando è necessaria per garantire l’accuratezza, il rilevamento e la moderazione non possono essere completamente automatizzati.
“C’è un compromesso tra latenza e precisione qui”, ha detto Huffman. “Questo è uno dei grandi problemi che stiamo risolvendo. E stiamo riversando molte ricerche e il nostro apprendimento automatico si focalizza su dove, da un lato, devi essere abbastanza veloce per essere eseguito in tempo reale ed essere abbastanza preciso da rilevare i problemi senza errori. Abbiamo già un sacco di esperienza. Ma quando inizi a rilevare queste parolacce o questi insulti razzisti o queste informazioni di contatto personali, se salti troppo presto, otterrai un mucchio di falsi positivi e spiffererai cose che non dovresti “.
Tuttavia, l’automazione del rilevamento aiuterà enormemente i team della comunità, poiché quei gruppi possono essere sommersi dal lavoro, soprattutto se devono trovare un modo per trascrivere una sessione di gioco discutibile.
Alcune squadre vorranno modificare la soglia per la tossicità. Se stai giocando a un gioco incentrato sugli adulti come Call of Duty, sentirai molte parolacce. Ma Modulate sarà in grado di analizzare se quelle parolacce si traducono in minacce gravi o meno, ha detto Huffman. È qui che il record di un singolo giocatore è importante. Se il giocatore ha una storia di tossicità, il community manager può agire più rapidamente per bandire quel giocatore.
“Se senti l’emozione di chi parla e tutti si stanno divertendo, allora puoi prevedere che c’è una minore probabilità che questo sia effettivamente problematico”, ha detto Huffman. “Ma se l’altoparlante suona molto forte e aggravato, e altrimenti problematico, potrebbe essere una situazione tossica. E il moderatore vorrebbe saltare su quello. “
Modulate ha testato ToxMod per un po ‘con la sua comunità e il proprio team. L’azienda sta parlando con una serie di grandi studi sull’utilizzo della tecnologia per attività come proteggere i bambini dai predatori. In teoria, una piattaforma come YouTube potrebbe utilizzarlo per visualizzare i video mentre vengono caricati sul suo servizio, proprio come può eseguire lo screening per la musica protetta da copyright prima che venga pubblicato un post.
“Tutti questi sviluppatori comprendono profondamente quanto sia importante risolvere la tossicità e la chat vocale”, ha affermato Pappas. “E così non appena siamo arrivati a loro con questo, la risposta è stata davvero straordinariamente eccitante, e abbiamo visto movimenti estremamente rapidi da tutti questi studi. Siamo molto interessati anche alle applicazioni di live streaming da questo. “
ToxMod potrebbe essere in grado di aiutare anche altre startup AI. Alithea AI utilizza Open AI per creare avatar animati in grado di tenere conversazioni con le persone. Ma per proteggersi da eventuali abusi di quel sistema, Alithea AI dovrebbe monitorare per cosa vengono utilizzati gli avatar, e questo significa monitorare il loro discorso. Con molti avatar creati, sarebbe necessario automatizzare l’elaborazione del monitoraggio dell’incitamento all’odio.
ToxMod può utilizzare alcuni degli stessi dati che le skin vocali usano per modificare il parlato in tempo reale, e questo consente a Modulate di rilevare l’incitamento all’odio mentre si verifica. Ma poiché i moderatori umani devono essere coinvolti prima che l’azione avvenga, gli sviluppatori di giochi rimarranno comunque indietro nell’intercettare le parolacce e i giocatori tossici. La sfida è che Modulate deve tenere il passo con i giocatori che cambiano le loro parole in modo che possano evitare di essere intrappolati dai rilevatori di parole chiave pur continuando a trasmettere un messaggio tossico.
Lo strumento potrebbe anche aiutare i dipendenti del call center a gestire i chiamanti tossici, ha detto Huffman. Modulate fa parte della Fair Play Alliance, un consorzio di società di giochi che vogliono risolvere problemi come il linguaggio tossico. “Molti degli studi con cui stiamo lavorando sono anche membri della Fair Play Alliance”, ha detto Pappas.
Nel complesso, Modulate vuole creare un’unica piattaforma in grado di risolvere tutto ciò che riguarda il miglioramento della chat vocale, dalle skin vocali a ToxMod. “Vogliamo mettere le persone a proprio agio utilizzando la chat vocale”, ha detto Pappas. “Ci sono molte persone, sia perché sono preoccupate di essere molestate, o semplicemente non amano il suono della loro voce, che oggi non usano la chat vocale. Gli studi sono interessati a sbloccare la chat vocale per più persone “.