L’RLHF restringe lo spazio espressivo dei modelli linguistici: uno studio su 351.734 narrazioni dimostra che gli LLM usano solo il 59% dell’ampiezza emotiva umana

Il presupposto implicito su cui si basano molti sistemi di allineamento dei modelli linguistici è che una risposta coerente, fluida e calibrata sia una risposta migliore. Un nuovo studio pubblicato su PLOS ONE da Sangbaek Kim del Ryan Research Institute di Parigi mette in discussione questo presupposto con un’analisi quantitativa su scala molto ampia, e i risultati indicano che il processo di allineamento tramite reinforcement learning from human feedback non rende solo i modelli più sicuri o più piacevoli: li rende espressivamente più piatti, riducendo in modo misurabile lo spazio geometrico entro cui si muovono le loro produzioni linguistiche legate alla sfera emotiva.

La metodologia del lavoro è costruita attorno a due assi ortogonali. Il primo è la struttura narrativa (N), che misura la complessità e la raffinatezza sintattica e discorsiva di un testo. Il secondo è l’intensità emotiva (A), ricavata per inferenza linguistica dal contenuto semantico. La differenza tra i due valori (definita come D = N − A, ovvero “emotion-narrative discordance”) è la metrica centrale dello studio. Il corpus analizzato comprende 351.734 narrazioni relazionali anonimizzate raccolte in community online tra il 2012 e il 2023 in lingua inglese: testi scritti da persone reali per descrivere situazioni di carica emotiva elevata, conflitti interpersonali, vulnerabilità, perdita.

Il risultato più importante emerso dall’analisi dei dati umani riguarda la quasi totale indipendenza tra intensità emotiva e struttura narrativa: la correlazione tra le due variabili è r = 0,009, statisticamente irrilevante. In altri termini, la quantità di emozione che una persona sente non predice la complessità con cui la esprime. Questo dato smonta un’assunzione intuitiva molto diffusa che l’intensità emotiva si traduca automaticamente in maggiore elaborazione verbale e rivela invece un paesaggio espressivo molto più articolato.

Kim identifica quattro modalità distribuzionali nell’espressione umana. La prima, definita “espressione congiunta”, rappresenta il 91,3% dei casi ed è caratterizzata da un bilanciamento tra emozione e narrativa. La seconda, “contenimento strategico”, copre il 5,75% e corrisponde a situazioni in cui un’emozione intensa viene espressa in forma volutamente compressa, con pochi ma precisi segnali verbali. La terza modalità, “collasso”, rappresenta il 2,29% e descrive casi in cui la carica emotiva è talmente alta da destrutturare la produzione linguistica stessa: frasi brevi, sintassi frammentata, segnali minimi di elaborazione narrativa. La quarta, “esagerazione strategica”, copre lo 0,63% e indica situazioni in cui una narrativa molto elaborata veicola contenuti emotivi relativamente bassi, una forma di distanza protettiva o di controllo comunicativo.

Questi quattro quadranti non sono rumore statistico. Kim li interpreta come segnali funzionali di regolazione dell’esposizione alla vulnerabilità: le persone modulano consapevolmente o inconsciamente quanto esprimere, quanto trattenere, quando permettersi di frammentarsi linguisticamente. Il “collasso”,quella modalità in cui le parole quasi vengono meno sotto il peso dell’emozione, è in particolare indicativo di una condizione di overwhelm che fino ad ora veniva trattato come outlier o dato rumoroso nei dataset, da filtrare o normalizzare. La ricerca suggerisce invece che questa zona è informativa, non disturbante.

Quando lo stesso framework metodologico viene applicato ai grandi modelli linguistici sottoposti ad allineamento RLHF, il confronto geometrico è netto: lo spazio espressivo dei LLM è 1,7 volte più ristretto rispetto a quello umano. Le regioni di contenimento estremo, di collasso e di esagerazione strategica sono quasi del tutto assenti nei modelli. I LLM si concentrano nella zona centrale, quella dell’espressione congiunta bilanciata, e raramente si allontanano da essa. Producono testi emotivamente plausibili, sintatticamente coerenti, tematicamente pertinenti, ma rimangono all’interno di un corridoio espressivo che non attraversa le zone di tensione massima, né quelle di reticenza estrema.

La spiegazione proposta è diretta: il processo RLHF ottimizza le risposte in direzione di quelle percepite come migliori dagli annotatori umani. Le risposte “migliori” tendono a essere quelle equilibrate, fluide, né troppo fredde né troppo cariche, leggibili e soddisfacenti da valutare. Le zone di collasso espressivo, dove un umano riesce a dire pochissimo perché è sopraffatto, o di contenimento drasticom dove l’emozione è fortissima ma la forma è minimalista, sono esattamente le tipologie di testo che un annotatore percepirebbe come incomplete, strane o di bassa qualità. L’RLHF le penalizza sistematicamente, e nel tempo il modello impara a non produrle. Il risultato è una forma di normalizzazione del registro espressivo che non è un bug ma una conseguenza diretta dell’obiettivo di ottimizzazione.

Le implicazioni tecniche sono rilevanti su più fronti. Sul piano della valutazione dei modelli, lo studio fornisce una metrica quantificabile ossia la dimensione dello spazio espressivo nella proiezione N-A, che può essere usata per misurare quanto un modello sia “ristretto” rispetto alla distribuzione umana di riferimento. È una metrica diversa dalla solita accuratezza su task, dalla fluency o dalla safety: misura qualcosa di più sottile, che ha a che fare con la capacità del modello di coprire l’intera gamma delle modalità comunicative umane, non solo quella centrale e ottimale. Sul piano delle applicazioni cliniche e di supporto psicologico mediato da AI, un settore in forte crescita, la ricerca segnala un problema strutturale: i modelli attuali non riconoscono né replicano i segnali di vulnerabilità estrema o di contenimento difensivo, che sono esattamente i pattern più informativi per chi deve valutare lo stato emotivo di un interlocutore. Un sistema di supporto che normalizza tutto verso l’espressione congiunta bilanciata può non accorgersi delle forme più silenziose di disagio. Sul piano regolatorio, Kim sottolinea che la ricerca aggiunge per la prima volta una base empirica misurabile al dibattito sull’AI Act europeo in materia di sistemi di riconoscimento emotivo, fornendo un argomento tecnico e non solo etico, per cui i modelli attuali non siano idonei a operare in contesti che richiedono sensibilità alla complessità emotiva umana reale.

L’RLHF restringe lo spazio espressivo dei modelli linguistici: uno studio su 351.734 narrazioni dimostra che gli LLM usano solo il 59% dell’ampiezza emotiva umana

DiFantasy

Di Fantasy

Articoli correlati

Ricerca AI e pubblicità conversazionale stanno sostituendo l’economia dei clic del web

Project Perception: Microsoft integra il modello MAI-Cyber-1-Flash nella sicurezza informatica agentica

Il malware ENCFORGE colpisce i server Langflow e distrugge modelli, pesi e dati di addestramento AI

Ultimi Post

Ricerca AI e pubblicità conversazionale stanno sostituendo l’economia dei clic del web

Project Perception: Microsoft integra il modello MAI-Cyber-1-Flash nella sicurezza informatica agentica

Il malware ENCFORGE colpisce i server Langflow e distrugge modelli, pesi e dati di addestramento AI

Meta AI integra Muse Spark 1.1 e introduce attività autonome e ricorrenti