La Seoul National University sviluppa VALUEFLOW per misurare e controllare i valori espressi dai modelli linguistici

Un gruppo di ricerca della Seoul National University ha sviluppato VALUEFLOW, un framework pensato per analizzare, misurare e controllare il modo in cui i grandi modelli linguistici esprimono valori umani nelle risposte generate. Il lavoro affronta uno dei problemi più complessi dell’allineamento dei modelli AI: non limitarsi a verificare se un modello produce risposte sicure o preferibili, ma capire quali valori esprime, con quale intensità e quanto sia possibile guidare in modo controllato tali valori durante la generazione.

L’approccio parte da una distinzione importante tra preferenze e valori. Molti sistemi di allineamento attuali si basano su preferenze umane, ranking di risposte o feedback comparativi, ma questo tipo di segnale tende a catturare scelte immediate e dipendenti dal contesto. VALUEFLOW prova invece a lavorare su un livello più strutturale, considerando i valori come principi relativamente stabili che influenzano decisioni, giudizi, priorità e compromessi. In questo senso, il framework non misura soltanto quale risposta venga considerata migliore, ma cerca di rappresentare le motivazioni di fondo che una risposta incorpora.

Il sistema integra tre componenti principali. La prima è HiVES, uno spazio di embedding gerarchico progettato per rappresentare i valori in modo multilivello. I valori umani non vengono trattati come etichette isolate, ma come strutture organizzate secondo gerarchie teoriche. Il framework utilizza più coordinate concettuali, tra cui la teoria dei valori di Schwartz, la Moral Foundations Theory, i doveri e i diritti. Questa scelta consente di confrontare modelli e risposte non solo su categorie generiche come equità, cura o autonomia, ma anche su relazioni più sottili tra valori vicini, sovrapposti o potenzialmente in conflitto.

La seconda componente è VIDB, il Value Intensity DataBase, una base dati costruita per associare testi e valori a stime di intensità. L’aspetto rilevante è che VALUEFLOW non si limita a stabilire se un testo esprima o meno un determinato valore. Il framework prova a quantificare quanto quel valore sia espresso, usando un meccanismo basato su ranking e ancore di riferimento. Questo permette di superare una debolezza ricorrente delle valutazioni basate su semplici punteggi assegnati da modelli giudicanti, che possono variare molto in funzione del prompt, del modello usato come valutatore e del contesto della domanda.

La terza componente è un valutatore anchor-based, cioè un sistema che confronta l’output di un modello con pannelli di testi già etichettati e ordinati per intensità. Invece di chiedere direttamente a un modello di assegnare un numero assoluto alla presenza di un valore, VALUEFLOW misura la posizione relativa della risposta rispetto a esempi calibrati. Questo approccio rende la valutazione più stabile, perché riduce la dipendenza da scale arbitrarie e consente confronti più coerenti tra modelli, prompt e scenari applicativi.

Il framework è stato usato per studiare dieci modelli linguistici attraverso quattro teorie dei valori. L’obiettivo non era soltanto classificare i modelli, ma osservare come ciascuno reagisca quando viene guidato verso valori specifici con intensità diverse. Dai risultati emerge che la controllabilità dei valori non è simmetrica: alcuni valori possono essere aumentati o attenuati più facilmente, mentre altri mostrano maggiore resistenza, interferenza o instabilità. Questo significa che l’allineamento non può essere trattato come un controllo uniforme applicabile a qualsiasi dimensione morale o sociale nello stesso modo.

Uno degli aspetti più interessanti riguarda la steerability con intensità controllata. VALUEFLOW consente di specificare coppie valore-intensità e di verificare se la risposta generata si avvicina effettivamente al profilo richiesto. In pratica, non si tratta solo di chiedere a un modello di essere più “equo”, “prudente” o “orientato alla libertà”, ma di valutare se il modello riesca a modulare tali dimensioni in modo graduato. Questa capacità è importante per applicazioni in cui il modello deve adattarsi a contesti culturali, professionali o demografici diversi senza collassare su un singolo profilo di valori predefinito.

La ricerca mostra anche che il controllo simultaneo di più valori introduce effetti compositivi complessi. Quando più valori vengono attivati insieme, il risultato non corrisponde sempre alla semplice somma delle istruzioni. Alcuni valori fortemente positivi possono dominare sugli altri, mentre valori deboli o in conflitto possono essere attenuati. Questo fenomeno è particolarmente rilevante per l’AI agentica e per i sistemi decisionali, perché molte situazioni reali richiedono di bilanciare valori concorrenti, come sicurezza e autonomia, equità e personalizzazione, trasparenza e privacy.

VALUEFLOW offre quindi una possibile infrastruttura di audit per modelli linguistici destinati a contesti sensibili. Invece di valutare un modello solo con benchmark generali di accuratezza, ragionamento o sicurezza, il framework permette di costruire profili di valore e di osservare come cambiano in funzione delle istruzioni, del contesto e del modello utilizzato. Questo può essere utile per confrontare diversi LLM, verificare derive indesiderate, analizzare risposte generate in ambienti ad alto impatto e progettare sistemi più trasparenti.

Il contributo principale non sta nell’introdurre un nuovo modello linguistico, ma nel proporre una metodologia per rendere più misurabile l’allineamento pluralistico. VALUEFLOW collega rappresentazione gerarchica dei valori, database di intensità, valutazione tramite ranking e generazione controllata in un’unica pipeline. Questo permette di trattare i valori non come attributi statici o dichiarazioni astratte, ma come segnali misurabili che possono essere estratti, confrontati e usati per guidare il comportamento del modello.

Il lavoro della Seoul National University evidenzia una direzione importante per l’evoluzione dell’allineamento AI. Man mano che i modelli linguistici vengono integrati in assistenti personali, sistemi educativi, strumenti aziendali e agenti autonomi, diventa insufficiente chiedere soltanto che siano “utili” o “sicuri”. Serve capire quali principi stanno privilegiando, come reagiscono a richieste culturalmente diverse e quanto il loro comportamento possa essere regolato senza perdere coerenza. VALUEFLOW prova a fornire gli strumenti tecnici per rendere questa analisi più sistematica, riproducibile e verificabile.

La Seoul National University sviluppa VALUEFLOW per misurare e controllare i valori espressi dai modelli linguistici

DiFantasy

Di Fantasy

Articoli correlati

Ricerca AI e pubblicità conversazionale stanno sostituendo l’economia dei clic del web

Project Perception: Microsoft integra il modello MAI-Cyber-1-Flash nella sicurezza informatica agentica

Il malware ENCFORGE colpisce i server Langflow e distrugge modelli, pesi e dati di addestramento AI

Ultimi Post

Ricerca AI e pubblicità conversazionale stanno sostituendo l’economia dei clic del web

Project Perception: Microsoft integra il modello MAI-Cyber-1-Flash nella sicurezza informatica agentica

Il malware ENCFORGE colpisce i server Langflow e distrugge modelli, pesi e dati di addestramento AI

Meta AI integra Muse Spark 1.1 e introduce attività autonome e ricorrenti