Per anni, la tendenza AI dominante è stata quella del puro scaling: modelli sempre più grandi, con miliardi di parametri, considerati l’unica via per sbloccare capacità di ragionamento complesse e multimodali, ovvero la capacità di comprendere e connettere informazioni provenienti da diverse fonti come testo, immagini, grafici e video. Tuttavia, questa corsa al gigantismo ha portato con sé costi esorbitanti in termini di addestramento, implementazione (inferenza) e consumo energetico, limitando di fatto l’adozione di questi sistemi solo ai grandi attori tecnologici.
La sfida più pressante per la comunità di ricerca è diventata: come si possono conferire capacità di ragionamento multimodale avanzato a modelli di dimensioni ridotte e molto più efficienti? I modelli di linguaggio di grandi dimensioni (LLM) hanno stabilito lo standard per il ragionamento, spesso tramite l’uso del Chain-of-Thought (CoT), un meccanismo che spinge il modello a “pensare ad alta voce” e a scomporre problemi complessi in passaggi logici intermedi prima di fornire una risposta. Questo processo, però, è computazionalmente oneroso.
Il vero salto di qualità non è arrivato dalla creazione di modelli piccoli da zero, ma dall’implementazione di metodologie di training intelligenti che migliorano radicalmente la loro qualità di ragionamento, slegandola dalla mera quantità di parametri.
Una delle tecniche più promettenti emerse di recente è l’addestramento per autoconsistenza (Self-Consistency Training), che si sposa perfettamente con il concetto di ragionamento a catena (CoT). Questo approccio si basa sull’idea che, proprio come un essere umano verifica la validità di un’ipotesi seguendo percorsi di pensiero multipli, un modello AI può generare diverse catene di ragionamento (rationales) per lo stesso problema. Successivamente, attraverso un processo di voto o selezione, il modello identifica e sceglie la risposta che risulta essere la più coerente e frequente tra tutte le razionalizzazioni generate.
Questa strategia, nota anche come MC-CoT nel contesto multimodale, permette a modelli più compatti di emulare la robustezza dei modelli più grandi. Anziché affidarsi a una singola e potenzialmente fallace linea di pensiero, il modello valuta una distribuzione di possibilità, aumentando significativamente l’accuratezza e la resilienza di fronte a compiti che richiedono l’integrazione logica di informazioni visive e testuali, come l’analisi di un grafico o la comprensione di un documento complesso.
L’altra direttrice fondamentale per rendere i modelli piccoli più “intelligenti” è l’apprendimento per rinforzo (RL) e la distillazione della conoscenza. Invece di addestrare i modelli piccoli con i metodi tradizionali, che possono portarli a risultati inferiori, i ricercatori hanno sviluppato tecniche per trasferire le capacità di ragionamento avanzate da un modello “insegnante” (spesso un LLM molto grande) a un modello “studente” (il modello più piccolo e target).
Questo avviene spesso utilizzando dati sintetici ad alta qualità: l’insegnante genera sia le risposte corrette che le complesse catene di ragionamento (CoT) associate. Questi dati vengono poi utilizzati per il fine-tuning dello studente, insegnandogli non solo cosa rispondere, ma come ragionare.
Parallelamente, l’utilizzo dell’Apprendimento per Rinforzo (RL), spesso chiamato “Self-Evolving Training” o “Training Auto-Evolutivo”, consente al modello di affinare le proprie capacità in modo iterativo. Il modello produce le proprie risposte e razionalizzazioni, che vengono valutate da un modello di ricompensa (reward model) appositamente addestrato. Questo sistema di feedback continuo ottimizza le politiche di ragionamento del modello piccolo, spingendolo a generare spiegazioni più concise, accurate e meno ridondanti, come nel caso di architetture specializzate che mirano alla fusione efficiente di più modelli esperti (Model Merging).
Il risultato di queste innovazioni nel training è una svolta strategica: si ottengono modelli multimodali non solo più piccoli e veloci da eseguire, riducendo drasticamente i costi di inferenza (che possono portare a risparmi significativi per le aziende), ma anche intrinsecamente più acuti e capaci di risolvere compiti complessi che prima erano appannaggio esclusivo dei loro cugini più voluminosi. Questa evoluzione promette di democratizzare l’accesso all’AI multimodale, rendendola economicamente sostenibile e tecnicamente dispiegabile su una gamma molto più ampia di dispositivi e infrastrutture.