Gli scienziati dell’Università della California, Berkeley, hanno introdotto un innovativo metodo di apprendimento automatico chiamato “apprendimento per rinforzo tramite feedback di intervento” (RLIF). Questo metodo mira a semplificare l’addestramento di sistemi di intelligenza artificiale in ambienti complessi, combinando l’apprendimento per rinforzo con l’apprendimento per imitazione interattivo.
RLIF si rivela particolarmente utile in scenari dove il feedback umano non è preciso e un segnale di ricompensa non è immediatamente disponibile, come spesso accade nell’addestramento AI per la robotica.
Nell’apprendimento per rinforzo, le precise funzioni di ricompensa guidano l’apprendimento, efficaci in scenari di controllo ottimale, giochi, e nell’allineamento di modelli linguistici di grandi dimensioni (LLM) con le preferenze umane. Tuttavia, la robotica, con i suoi obiettivi complessi e l’assenza di segnali di ricompensa espliciti, presenta sfide significative per i metodi RL tradizionali.
Gli ingegneri spesso si affidano all’apprendimento per imitazione in ambienti complessi. Questa tecnica di apprendimento supervisionato si basa su dimostrazioni umane per l’addestramento dei modelli. Tuttavia, può incontrare il problema di “mancata corrispondenza della distribuzione”, dove l’agente affronta situazioni non coperte dalle sue dimostrazioni formative.
RLIF sfrutta l’intuizione che riconoscere gli errori è più semplice che eseguire correzioni perfette. Ad esempio, in guida autonoma, l’intervento di un conducente segnala una deviazione dal comportamento desiderato, ma non necessariamente fornisce una risposta ottimale. L’agente RL impara quindi a evitare situazioni che richiedono tali interventi piuttosto che imitare l’azione stessa.
L’approccio ibrido di RLIF supera i limiti sia dell’apprendimento per rinforzo che dell’apprendimento per imitazione interattivo, rendendolo pratico in ambienti complessi. Gli esperimenti degli scienziati hanno dimostrato che RLIF sovraperforma significativamente rispetto a DAgger, un algoritmo di apprendimento interattivo per imitazione, specialmente in scenari con interventi umani non ottimali.
RLIF ha mostrato robustezza e applicabilità anche in scenari reali come la manipolazione di oggetti e la piegatura di tessuti con feedback umano. Nonostante alcune sfide, come i significativi requisiti di dati e la complessità della distribuzione online, RLIF promette di essere uno strumento cruciale nell’addestramento di sistemi robotici nel mondo reale.