Secondo quanto riportato da TIME, è stata sviluppata una tecnologia per determinare se un modello di intelligenza artificiale (AI) contenga conoscenze pericolose utilizzabili per sviluppare armi di distruzione di massa, consentendo la loro rimozione senza compromettere le prestazioni.
Un consorzio composto da Scale AI, un fornitore di dati di formazione sull’intelligenza artificiale, ricercatori dell’organizzazione no-profit AI Safety Center e più di 20 esperti in biosicurezza, armi chimiche e sicurezza informatica ha creato il “Weapons of Mass Destruction Proxy (WMDP)” benchmark e la tecnologia “mind wipe” utilizzando il benchmark WWDP per rimuovere la conoscenza rischiosa dai modelli linguistici di grandi dimensioni (LLM).
Le attuali tecniche utilizzate dalle aziende di intelligenza artificiale per controllare l’output dei loro sistemi sono state ritenute vulnerabili e facili da aggirare. Alexander Wang, CEO di Scale AI, ha notato che non c’era stata una valutazione chiara per determinare quanto fosse rischioso un modello rispetto a un altro.
Il benchmark WWDP è stato costruito catalogando i vari modi in cui potrebbero verificarsi danni e creando 4.157 domande a scelta multipla che potrebbero generare risposte pericolose. I ricercatori hanno poi utilizzato la tecnologia “CUT unlearning” o “Mind Wipe” per rimuovere la conoscenza pericolosa da un set di dati di Wikipedia di molti milioni di parole, conservando altre conoscenze.
Il test benchmark WWDP è stato eseguito su LLM in stato originale e con Mind Wipe applicato. La maggior parte della conoscenza pericolosa è stata eliminata, con solo il 25% dei casi rimanenti, dimostrando un significativo impatto nella riduzione del rischio.
Anche se la tecnologia di disapprendimento ha sollevato domande sulla sua efficacia da parte di alcuni esperti, Wang ha sottolineato l’importanza di utilizzarla per ridurre il rischio nei modelli di intelligenza artificiale più potenti e potenzialmente pericolosi. Tuttavia, Miranda Bogen, direttrice dell’AI Governance Lab presso il Center for Democratic Technology, ha sottolineato che l’utilità della tecnologia è ancora oggetto di dibattito.