Il nuovo modello di miliardi di parametri di Facebook potrebbe cambiare per sempre la visione artificiale
SEER è un modello di visione artificiale di auto-supervisione a miliardi di parametri che può apprendere da qualsiasi gruppo di immagini su Internet.
Proprio come il cervello umano, l’apprendimento profondo utilizza una rete neurale per il rilevamento di oggetti, il riconoscimento vocale, la traduzione, il processo decisionale e altro ancora. Tuttavia, affinché l’apprendimento profondo, un sottoinsieme dell’apprendimento automatico, funzioni in modo ottimale, è necessaria un’enorme quantità di dati. Ridurre la dipendenza dai dati del deep learning è una delle massime priorità dei ricercatori di intelligenza artificiale.
Il vicepresidente di Facebook Yann LeCun, considerato uno dei padrini dell’apprendimento profondo , ha presentato il progetto per l’apprendimento autogestito alla conferenza AAAI nel 2020. In un recente blog, LeCun ha scritto : “In pratica, è impossibile etichettare tutto nel mondo . Ci sono anche alcune attività per le quali semplicemente non ci sono abbastanza dati etichettati, come l’addestramento di sistemi di traduzione per lingue con poche risorse. Se i sistemi di intelligenza artificiale possono raccogliere una comprensione più profonda e più sfumata della realtà oltre a quanto specificato nel set di dati di addestramento, saranno più utili e alla fine avvicineranno l’IA all’intelligenza a livello umano ”.
Nell’apprendimento autogestito, i sistemi non si basano su set di dati etichettati per addestrare ed eseguire attività. Invece, imparano direttamente dalle informazioni fornite loro direttamente – testo, immagini, ecc. rispondendo.
Ora, con SEER (SElf-supERvised), Facebook ha cooptato questo approccio per la visione artificiale . SEER è un modello di visione artificiale di auto-supervisione a miliardi di parametri che può apprendere da qualsiasi gruppo di immagini su Internet. Queste immagini non hanno bisogno di essere curate ed etichettate, che altrimenti sono un prerequisito per la maggior parte della formazione sulla visione artificiale.
Cos’è SEER?
L’apprendimento autogestito nei modelli PNL utilizza trilioni di parametri e pesanti set di dati per l’addestramento. Una grande quantità di dati garantisce un modello superiore.
Nella PNL, i concetti semantici possono essere suddivisi in parole discrete, ma la visione artificiale è molto più complicata. Far corrispondere il pixel al suo concetto corrispondente è un compito piuttosto impegnativo poiché è necessario valutare molte immagini per comprendere la variazione attorno a un singolo concetto.
Per ridimensionare in modo efficiente i modelli per lavorare con dati di immagine complessi e ad alta dimensione, sono necessari due componenti:
Un algoritmo che apprende da un gran numero di immagini casuali con metadati o annotazioni
Una rete convoluzionale in grado di catturare e apprendere ogni concetto visivo da dati dati.
Per superare queste sfide, il team di Facebook ha adottato SwAV, un algoritmo che raggruppa le immagini associate a concetti simili. Con SwAV, i ricercatori sono stati in grado di superare le prestazioni dell’algoritmo all’avanguardia con un tempo di formazione sei volte inferiore.
Inoltre, per addestrare il modello su così vasta scala, i ricercatori hanno utilizzato RegNet, un algoritmo di apprendimento profondo basato su reti convoluzionali in grado di scalare fino a trilioni di parametri.
Facebook ha anche reso open source una libreria multiuso per l’apprendimento autogestito chiamata VISSL (libreria VIsion per l’apprendimento autoguidato all’avanguardia). È una libreria basata su PyTorch che consente l’apprendimento autoguidato sia su piccola che su larga scala. VISSL contiene una suite di benchmark e uno zoo modello con oltre 60 modelli pre-addestrati per confrontare i moderni metodi di apprendimento autoguidato.
VISSL ha le seguenti caratteristiche:
Precisione mista dalla libreria NVIDIA Apex che riduce i requisiti di memoria.
Il checkpoint del gradiente di PyTorch aiuta nell’addestramento di modelli su lotti di grandi dimensioni.
L’ottimizzatore condiviso dalla libreria FairScale che riduce l’utilizzo della memoria
Ottimizzazioni per l’apprendimento autoguidato online.
Avvolgendo
L’apprendimento autogestito elimina la necessità di annotazioni e metadati umani. Altri vantaggi includono:
Consente alla comunità di visione artificiale di lavorare con set di dati più ampi e diversificati
Impara da immagini casuali senza etichetta
Mitiga i pregiudizi che possono insinuarsi con la cura dei dati
In casi come l’imaging medico in cui sono disponibili set di dati limitati, SEER può aiutare nella specializzazione dei modelli.
Consente risposte più rapide e accurate alle innovazioni rapide nel campo della visione artificiale.