Facebook ha annunciato oggi un modello di intelligenza artificiale addestrato su un miliardo di immagini che apparentemente raggiunge risultati all’avanguardia su una serie di benchmark di visione artificiale. A differenza della maggior parte dei modelli di visione artificiale, che apprendono da set di dati etichettati, Facebook genera etichette dai dati esponendo le relazioni tra le parti dei dati, un passaggio ritenuto fondamentale per raggiungere un giorno l’intelligenza a livello umano.
Il futuro dell’IA risiede nella creazione di sistemi in grado di trarre conclusioni da qualsiasi informazione venga fornita senza fare affidamento su set di dati annotati. Fornito testo, immagini o un altro tipo di dati, un sistema di intelligenza artificiale sarebbe idealmente in grado di riconoscere gli oggetti in una foto, interpretare il testo o eseguire uno degli innumerevoli altri compiti che gli vengono richiesti.
Facebook afferma di aver fatto un passo in questo senso con un modello di visione artificiale chiamato SEER, che sta per SElf-supERvised. SEER contiene un miliardo di parametri e può apprendere da qualsiasi gruppo casuale di immagini su Internet senza la necessità di cura o annotazione. I parametri, una parte fondamentale dei sistemi di machine learning, sono la parte del modello derivata dai dati storici di addestramento.
Nuove tecniche
L’auto-supervisione per la visione è un compito impegnativo. Con il testo, i concetti semantici possono essere suddivisi in parole discrete, ma con le immagini, un modello deve decidere da solo quale pixel appartiene a quale concetto. Rendendo le cose più impegnative, lo stesso concetto spesso varierà tra le immagini. Per cogliere la variazione attorno a un singolo concetto, quindi, è necessario guardare molte immagini diverse.
I ricercatori di Facebook hanno scoperto che il ridimensionamento dei sistemi di intelligenza artificiale per lavorare con dati di immagini complessi richiedeva almeno due componenti principali. Il primo era un algoritmo che poteva apprendere da un vasto numero di immagini casuali senza metadati o annotazioni, mentre il secondo era una rete convoluzionale – ConvNet – abbastanza grande da catturare e apprendere ogni concetto visivo da questi dati. Le reti convoluzionali, proposte per la prima volta negli anni ’80, si ispirano a processi biologici, in quanto il modello di connettività tra i componenti del modello assomiglia alla corteccia visiva.
Nello sviluppo di SEER, Facebook ha sfruttato un algoritmo chiamato SwAV, che è stato confermato dalle indagini dell’azienda sull’apprendimento autogestito. SwAV utilizza una tecnica chiamata clustering per raggruppare rapidamente immagini da concetti visivi simili e sfruttare le loro somiglianze, migliorando rispetto allo stato dell’arte precedente nell’apprendimento autoguidato e richiedendo un tempo di formazione fino a 6 volte inferiore.
I modelli di addestramento delle dimensioni di SEER richiedevano anche un’architettura efficiente in termini di runtime e memoria senza compromettere l’accuratezza, secondo Facebook. I ricercatori dietro SEER hanno scelto di utilizzare RegNets, o un tipo di modello ConvNet in grado di scalare a miliardi o potenzialmente trilioni di parametri, adattandosi ai vincoli di runtime e memoria.
L’ultimo pezzo che ha reso possibile SEER è stata una biblioteca per tutti gli usi chiamata VISSL, abbreviazione di VIsion library for state-of-the-art Self Supervised Learning. VISSL, che Facebook offre oggi come open source, consente la formazione autoguidata con una varietà di metodi di apprendimento automatico moderni. La libreria facilita l’apprendimento autoguidato su larga scala integrando algoritmi che riducono il requisito di memoria per GPU e aumentano la velocità di addestramento di qualsiasi modello dato.
Prestazioni e lavoro futuro
Dopo aver effettuato la pre-formazione su un miliardo di immagini pubbliche di Instagram, SEER ha sovraperformato i sistemi autogestiti più avanzati e all’avanguardia, afferma Facebook. SEER ha anche superato i modelli in attività quali il rilevamento di oggetti, la segmentazione e la classificazione delle immagini. Quando addestrato con solo il 10% degli esempi nel popolare set di dati ImageNet, SEER è comunque riuscito a raggiungere una precisione del 77,9%. E se addestrato con solo l’1%, SEER era accurato al 60,5%.
Alla domanda se gli utenti di Instagram le cui immagini sono state utilizzate per addestrare SEER siano stati informati o abbiano avuto l’opportunità di rinunciare alla ricerca, Goyal ha notato che Facebook informa i titolari di account Instagram nella sua politica sui dati che utilizza informazioni come le immagini per supportare la ricerca, incluso il gentile alla base di SEER. Detto questo, Facebook non prevede di condividere le immagini o il modello SEER stesso, in parte perché il modello potrebbe contenere pregiudizi non intenzionali .
“L’apprendimento autogestito è stato a lungo un obiettivo per l’IA di Facebook perché consente alle macchine di apprendere direttamente dalla grande quantità di informazioni disponibili nel mondo, piuttosto che solo dai dati di formazione creati appositamente per la ricerca sull’IA”, ha scritto Facebook in un post sul blog . “L’apprendimento autogestito ha incredibili ramificazioni per il futuro della visione artificiale, proprio come avviene in altri campi di ricerca. L’eliminazione della necessità di annotazioni umane e metadati consente alla comunità della visione artificiale di lavorare con set di dati più ampi e diversificati, apprendere da immagini pubbliche casuali e potenzialmente mitigare alcuni dei pregiudizi che entrano in gioco con la cura dei dati. L’apprendimento autogestito può anche aiutare a specializzare i modelli in domini in cui abbiamo immagini o metadati limitati, come l’imaging medico. E senza manodopera necessaria per l’etichettatura,