Recenti studi condotti dalle università di Harvard e del Michigan hanno rivelato che i modelli di intelligenza artificiale (IA) acquisiscono durante l’addestramento competenze molto più avanzate di quanto precedentemente supposto. Tuttavia, queste abilità rimangono latenti fino a quando non vengono attivate da specifici stimoli o prompt, suggerendo che le IA possiedono potenzialità inespresse che potrebbero essere sfruttate con le giuste sollecitazioni.
La ricerca, pubblicata su arXiv, ha esaminato in dettaglio i modelli di diffusione, una classe di IA generativa, per comprendere come gestiscono concetti fondamentali. Attraverso esperimenti approfonditi, i ricercatori hanno osservato che l’acquisizione di nuove competenze da parte dei modelli avviene in modo non lineare, con momenti di transizione netti in cui emergono capacità avanzate.
Un aspetto particolarmente interessante emerso dallo studio è che i modelli di IA padroneggiano concetti complessi molto prima di quanto indicato dai test standard. Ad esempio, si è scoperto che, in alcuni casi, i modelli avevano già acquisito una comprensione approfondita di determinati concetti fino a 6.000 fasi di addestramento prima che i test tradizionali ne rilevassero la presenza.
Per misurare l’apprendimento dei modelli, i ricercatori hanno introdotto il concetto di “segnale di concetto” (concept signal) nei dati di addestramento, monitorando la velocità con cui i modelli assimilavano nuove informazioni. Modificando questi segnali, è stato possibile far emergere competenze latenti che non erano evidenti attraverso i prompt convenzionali.
Tecniche come l'”intervento latente lineare” (linear latent intervention) e l'”overprompting” si sono rivelate efficaci nel sbloccare queste capacità nascoste. Queste metodologie hanno permesso di accedere a competenze che, sebbene già presenti nel modello, non venivano attivate dai prompt standard.
Queste scoperte hanno implicazioni significative per la sicurezza e la valutazione delle IA. I benchmark attuali potrebbero sottovalutare le reali capacità dei modelli, ignorando sia le potenzialità benefiche sia i rischi associati a competenze non riconosciute.
Un esempio pratico evidenziato nello studio riguarda la capacità dei modelli di IA di comprendere e generare combinazioni complesse di attributi, come “donna sorridente” o “uomo con cappello”. Sebbene i modelli fossero in grado di rappresentare accuratamente ciascun attributo singolarmente, la combinazione di più caratteristiche richiedeva prompt specifici per essere realizzata, indicando che le competenze erano presenti ma non immediatamente accessibili.
I ricercatori hanno paragonato questa situazione a quella di individui che comprendono una lingua straniera ma faticano a parlarla fluentemente: la conoscenza è presente, ma l’espressione richiede stimoli adeguati.
Queste rivelazioni sottolineano la necessità di sviluppare protocolli di test più sofisticati per le IA, in grado di rilevare e valutare competenze latenti. Comprendere appieno le capacità nascoste dei modelli è essenziale per sfruttare al meglio il loro potenziale e garantire un utilizzo sicuro e responsabile dell’intelligenza artificiale.