La 40a Conferenza internazionale sull’apprendimento automatico (ICML) si terrà quest’anno a Honolulu, nelle Hawaii. Esperti di IA/ML provenienti da tutto il mondo si sono riuniti presso la sede per mostrare e rilasciare ricerche all’avanguardia incentrate su tutti gli aspetti dell’apprendimento automatico implementato in domini strettamente interconnessi come IA, statistica e scienza dei dati. Quest’anno, i riflettori sono puntati su aree applicative vitali come la visione artificiale, la biologia computazionale, il riconoscimento vocale e la robotica. Il primo IMCL ha avuto luogo nel 1980 a Pittsburgh. Ecco alcuni documenti che la grande tecnologia Meta ha presentato alla conferenza di quest’anno.

ELSA: Efficient Label Shift Adaptation attraverso la lente dei modelli semiparametrici
Questo studio si concentra sul problema dell’adattamento del dominio con cambio di etichetta, in cui la distribuzione delle etichette differisce tra i set di dati di addestramento e di test, mentre la distribuzione delle caratteristiche rimane la stessa. I metodi esistenti per l’adattamento dello spostamento dell’etichetta presentano errori di stima o complesse calibrazioni post-previsione. Per superare questi problemi, i ricercatori propongono un quadro di corrispondenza dei momenti chiamato Efficient Label Shift Adaptation (ELSA). ELSA stima i pesi di adattamento risolvendo sistemi lineari, garantendo prestazioni accurate ed efficienti senza calibrazioni post-previsione. L’analisi teorica ne dimostra la coerenza e la normalità, mentre i risultati empirici mostrano prestazioni all’avanguardia.

Gli MDP che mescolano premi con pochi contesti latenti sono apprendibili
Questa ricerca si concentra sull’apprendimento per rinforzo episodico in un tipo di processo decisionale chiamato “processi decisionali di Markov con miscelazione di ricompense” (RMMDP). In questi processi, all’inizio di ogni episodio, la natura seleziona casualmente un modello di ricompensa nascosto tra M scelte e l’agente interagisce con il sistema per H fasi temporali. L’obiettivo è apprendere una politica che massimizzi le ricompense cumulative rispetto ai passaggi H per questo modello di ricompensa nascosta. I ricercatori presentano un nuovo algoritmo chiamato EM2, che trova in modo efficiente una politica quasi ottimale per qualsiasi M ≥ 2. Stabiliscono anche un limite inferiore alla complessità del campione di RMMDP, dimostrando che un’elevata complessità del campione in M ​​è inevitabile.

Modelli di traiettoria mascherati per previsione, rappresentazione e controllo
Insieme a UC Berkeley, Georgia Tech, Google Research e Meta AI hanno contribuito a questo progetto. I modelli di traiettoria mascherata (MTM) sono un nuovo modo di prendere decisioni passo dopo passo. Il team prende una sequenza di stati e azioni e cerca di capire la sequenza utilizzando parti casuali di essa. Imparano ad essere flessibili e possono svolgere compiti diversi semplicemente utilizzando parti diverse della sequenza. Ad esempio, possono essere utilizzati come modelli per prevedere azioni future, capire azioni passate o persino come agenti di apprendimento. Nei test, la stessa rete MTM può funzionare bene o addirittura meglio delle reti specializzate progettate per compiti specifici. MTM aiuta anche ad accelerare l’apprendimento negli algoritmi RL tradizionali e compete bene con metodi RL offline specializzati nei benchmark.

Rappresentazioni iperboliche immagine-testo
Meta ha introdotto MERU che aiuta a organizzare le idee visive e scritte in una gerarchia. Ad esempio, quando diciamo “cane”, include tutte le immagini di cani. I modelli esistenti come CLIP non catturano esplicitamente questa gerarchia. MERU utilizza spazi iperbolici, utili per rappresentare dati simili ad alberi, permettendogli di catturare meglio le relazioni tra immagini e testo. I risultati mostrano che MERU crea una rappresentazione chiara e comprensibile durante l’esecuzione, così come CLIP, di attività come la classificazione delle immagini e la corrispondenza immagine-testo.

Hiera: un trasformatore di visione gerarchico senza fronzoli
I ricercatori hanno potenziato i trasformatori visivi per la classificazione supervisionata, ma gli elementi aggiuntivi specifici per la visione li hanno resi più lenti rispetto alla versione ViT originale. Questo documento introduce Hiera, un semplice trasformatore di visione gerarchica. Pre-addestrandolo con un forte compito visivo (MAE), la complessità non necessaria viene rimossa pur mantenendo la precisione. Hiera supera i modelli precedenti, dimostrando di essere più veloce sia nell’addestramento che nell’inferenza. Le sue prestazioni vengono valutate su varie attività di riconoscimento di immagini e video.

Di Fantasy