Oggi, Resemble AI, una società specializzata nella clonazione vocale, ha lanciato la prossima generazione del suo modello di rilevamento deepfake, chiamato Detect-2B, che vanta una precisione del 94%.
Detect-2B utilizza diversi sottomodelli pre-addestrati e ottimizzazioni per analizzare clip audio e determinare se sono state generate con l’intelligenza artificiale. Resemble ha dichiarato che questo rappresenta un significativo passo avanti in termini di architettura del modello, dati di addestramento e performance complessive.
Secondo Resemble, i sottomodelli di Detect-2B integrano un modello di rappresentazione audio congelato con un modulo di adattamento inserito nei suoi strati chiave. Questo modulo di adattamento è progettato per identificare gli artefatti o i suoni accidentali che possono indicare una registrazione falsa generata dall’intelligenza artificiale, spesso caratterizzata da una pulizia eccessiva nel suono.
Detect-2B esegue una valutazione basata su una soglia attentamente calibrata per determinare se una registrazione è autentica o falsa, senza richiedere una riqualificazione completa ogni volta che viene esaminata una nuova clip. L’architettura del modello si basa su Mamba-SSM, che utilizza un approccio stocastico anziché dipendere da dati statici o modelli ricorrenti, adattandosi bene a varie dinamiche presenti nelle clip audio, indipendentemente dalla qualità del segnale.
Resemble ha testato Detect-2B su un set diversificato di clip audio, comprese lingue diverse e registrazioni simulate di deepfake, ottenendo una precisione di almeno il 93% per sei lingue diverse.
Detect-2B sarà disponibile tramite API e potrà essere integrato in diverse applicazioni. Questo è particolarmente rilevante in un contesto come quello delle elezioni presidenziali americane del 2024, dove la capacità di rilevare e autenticare voci generate dall’intelligenza artificiale può svolgere un ruolo cruciale nel contrastare la disinformazione e mantenere l’integrità delle informazioni.
Altri attori nel campo della sicurezza informatica, come McAfee con il progetto Mockingbird e Meta con lo sviluppo di filigrane per l’audio AI, stanno anche cercando soluzioni simili per affrontare il problema dei deepfake.
Resemble ha sottolineato che il lavoro per migliorare Detect-2B è in corso, con piani per esplorare nuove direzioni di ricerca per potenziare ulteriormente il modello, includendo l’apprendimento delle rappresentazioni e l’uso di architetture di modelli avanzati.