I ricercatori di Google Cloud AI hanno sviluppato LANISTR, un framework innovativo per affrontare le sfide della gestione di dati strutturati e non strutturati nell’apprendimento automatico. Questo framework si distingue per la sua capacità di gestire efficacemente le modalità mancanti, migliorando le prestazioni del modello in situazioni in cui alcuni tipi di dati sono incompleti o assenti.
LANISTR utilizza tecniche di mascheramento unimodali e multimodali per addestrare i modelli a comprendere le relazioni contestuali e a prevedere le modalità mancanti. Il mascheramento unimodale nasconde alcuni dati all’interno di ciascuna modalità, mentre il mascheramento multimodale nasconde intere modalità, costringendo il modello a utilizzare le modalità disponibili per prevedere quelle mancanti.
Un obiettivo di mascheramento multimodale basato sulla somiglianza guida il modello a fornire rappresentazioni coerenti con i dati disponibili, migliorando l’accuratezza e la generalizzazione.
LANISTR è stato testato su set di dati del mondo reale, come MIMIC-IV nel settore sanitario e Amazon Product Review nel settore retail, dimostrando la sua efficacia nel gestire le fluttuazioni dei dati e nel migliorare le prestazioni del modello anche in presenza di dati etichettati limitati.