Gli LLM non superano le prestazioni delle tecniche ML anni Settanta

Quest’anno, il laboratorio MIT Data to AI ha deciso di testare i modelli linguistici di grandi dimensioni (LLM) per un compito solitamente affidato a tecniche di apprendimento automatico molto diverse: il rilevamento di anomalie nei dati delle serie temporali. Questo compito è comune nel settore da decenni e viene spesso utilizzato per prevedere problemi in macchinari pesanti. Il laboratorio ha sviluppato un framework per utilizzare gli LLM in questo contesto e ha confrontato le loro prestazioni con dieci altri metodi, tra cui sia tecniche di apprendimento profondo sia un metodo degli anni ’70 noto come media mobile integrata autoregressiva (ARIMA). Alla fine, il laboratorio ha riscontrato che gli LLM hanno avuto risultati inferiori rispetto agli altri modelli in molti casi, incluso il vecchio ARIMA, che ha superato gli LLM in sette set di dati su un totale di undici.

Per coloro che considerano gli LLM come una tecnologia universale per la risoluzione dei problemi, questo potrebbe sembrare un fallimento. Tuttavia, il laboratorio ha fatto due scoperte che lo hanno sorpreso. In primo luogo, gli LLM sono riusciti a superare alcuni modelli, inclusi metodi di apprendimento profondo basati su trasformatori. In secondo luogo, e forse più importante, gli LLM hanno ottenuto questi risultati senza alcuna messa a punto, utilizzando i modelli GPT-3.5 e Mistral “out of the box”, senza modificarli.

Nei metodi tradizionali, il laboratorio addestrerebbe un modello di apprendimento profondo o il modello ARIMA utilizzando i dati del segnale per il quale desidera rilevare anomalie. In sostanza, il laboratorio utilizzerebbe dati storici per insegnare al modello a riconoscere la “normalità”. Una volta addestrato, il modello elaborerebbe nuovi valori in tempo reale, identificando eventuali deviazioni dalla norma e contrassegnandole come anomalie.

Al contrario, quando il laboratorio ha utilizzato gli LLM, non ha eseguito questo processo in due fasi: gli LLM non hanno avuto l’opportunità di apprendere la “normalità” dai segnali prima di dover rilevare anomalie in tempo reale. Questo approccio è definito “zero-shot learning”. Visto in questo modo, il risultato è notevole. La capacità degli LLM di affrontare il problema senza alcun esempio precedente significa che il laboratorio può ora rilevare anomalie senza dover addestrare modelli specifici per ogni segnale o condizione. Questo rappresenta un enorme guadagno in termini di efficienza, poiché alcune macchine, come i satelliti, possono avere migliaia di segnali, richiedendo altrimenti un addestramento specifico per ogni condizione. Con gli LLM, il laboratorio può saltare completamente questi passaggi che richiedono molto tempo.

Un’altra sfida degli attuali metodi di rilevamento delle anomalie è il complesso processo in due fasi necessario per addestrare e implementare un modello di apprendimento automatico. Sebbene l’implementazione possa sembrare semplice, in pratica è complessa. L’implementazione richiede la traduzione di tutto il codice affinché possa essere eseguito nell’ambiente di produzione. Inoltre, è fondamentale ottenere l’approvazione dell’utente finale, in questo caso l’operatore, per distribuire il modello. Gli operatori spesso non hanno esperienza con l’apprendimento automatico e potrebbero percepirlo come un elemento confuso da integrare nel loro già affollato flusso di lavoro. Potrebbero avere domande come: “Con quale frequenza verrà riaddestrato il modello?”, “Come possiamo inserire i dati nel modello?” e “Come gestiamo i dati per diversi segnali?”.

Questa fase di transizione può generare attriti e, in ultima analisi, impedire la distribuzione di un modello addestrato. Con gli LLM, non essendo richiesti addestramenti o aggiornamenti, gli operatori possono avere il controllo diretto. Possono effettuare query tramite API, aggiungere segnali per i quali vogliono rilevare anomalie, rimuovere quelli non necessari e attivare o disattivare il servizio senza dover dipendere da altri team. Questa autonomia degli operatori nel rilevamento delle anomalie potrebbe migliorare notevolmente le dinamiche di distribuzione e rendere questi strumenti molto più diffusi.

Nonostante gli LLM stiano cambiando radicalmente il modo in cui il laboratorio affronta il rilevamento delle anomalie, devono ancora dimostrarsi competitivi come i modelli di apprendimento profondo più avanzati o, come nel caso di sette set di dati, come il modello ARIMA degli anni ’70. Questo potrebbe dipendere dal fatto che il laboratorio non ha effettuato alcuna messa a punto degli LLM, né ha creato un modello specifico per le serie temporali.

È fondamentale procedere con attenzione durante la messa a punto, per non compromettere i principali vantaggi offerti dagli LLM. Il laboratorio ha delineato due approcci da evitare per migliorare l’accuratezza del rilevamento delle anomalie degli LLM:

Ottimizzare gli LLM esistenti per segnali specifici, poiché ciò vanificherebbe la loro natura “zero-shot”.
Creare un LLM di base per lavorare con le serie temporali e aggiungere un livello di messa a punto per ogni nuovo tipo di macchinario.

Questi due approcci annullerebbero lo scopo dell’uso degli LLM e riporterebbero il laboratorio alla necessità di addestrare un modello per ogni segnale, complicando ulteriormente l’implementazione.

Per competere con i metodi tradizionali, gli LLM devono abilitare nuove modalità di esecuzione delle attività o aprire nuove possibilità. È essenziale che la comunità dell’IA sviluppi metodi, procedure e pratiche per garantire che i miglioramenti in alcune aree non compromettano gli altri vantaggi degli LLM.

Nel campo del machine learning classico, ci sono voluti quasi 20 anni per stabilire pratiche di addestramento, test e validazione. Anche con queste pratiche, non sempre il laboratorio può garantire che le prestazioni di un modello in ambiente di test corrispondano a quelle reali in fase di distribuzione, a causa di problemi come la perdita di etichette o distorsioni nei dati di addestramento.

Se il laboratorio si avventura su questa promettente nuova strada senza le dovute precauzioni, potrebbe ritrovarsi a dover reinventare la ruota, ma in modo ancora più complesso.

Gli LLM non superano le prestazioni delle tecniche ML anni Settanta

DiFantasy

Di Fantasy

Articoli correlati

OpenAI pronta al debutto di GPT-5.3 Garlic

Autodesk denuncia Google per il marchio Flow nell’intelligenza artificiale video

L’Università di Cambridge inaugura Talking Plants, la prima mostra al mondo in cui le piante parlano con i visitatori grazie all’AI

Ultimi Post

OpenAI pronta al debutto di GPT-5.3 Garlic

Autodesk denuncia Google per il marchio Flow nell’intelligenza artificiale video

L’Università di Cambridge inaugura Talking Plants, la prima mostra al mondo in cui le piante parlano con i visitatori grazie all’AI

SwitchBot porta l’intelligenza artificiale locale nella smart home con AI Hub e supporto OpenClaw