Home / Archive by category "deep learning apprendimento profondo"

deep learning apprendimento profondo

MuZero di DeepMind raccoglie le regole dei giochi mentre gioca

In un articolo pubblicato sulla rivista Science alla fine dell'anno scorso, DeepMind della società madre di Google Alphabet ha dettagliato AlphaZero , un sistema di intelligenza artificiale che potrebbe insegnare a se stesso a padroneggiare il gioco degli scacchi, una variante giapponese degli scacchi chiamata shogi e il gioco da tavolo cinese Go. In ogni caso, ha battuto un campione del mondo, dimostrando un talento per l'apprendimento di giochi per due persone con informazioni perfette, vale a dire giochi in cui qualsiasi decisione è influenzata da tutti gli eventi precedenti. Ma AlphaZero aveva il vantaggio di conoscere le regole dei giochi a cui era incaricato di giocare. Alla ricerca di un modello di apprendimento automatico performante in grado di insegnare a se stesso le regole, un team di DeepMind ha ideato MuZero, che combina una ricerca basata su albero (dove un albero è una struttura di dati utilizzata per individuare le informazioni all'interno di un set) con un modello appreso . Come descritto in un documento di Nature pubblicato oggi, MuZero prevede le quantità più rilevanti per la pianificazione del gioco in modo tale da ottenere prestazioni leader del settore su 57 diversi giochi Atari e abbinare le prestazioni di AlphaZero in Go, scacchi e shogi. Dave Silver, che guida il gruppo di apprendimento per rinforzo presso DeepMind, afferma che MuZero apre la strada ai metodi di apprendimento in una serie di domini del mondo reale, in particolare quelli privi di un simulatore o di regole dinamiche. "Pensiamo che questo sia davvero importante per arricchire ciò che l'AI può effettivamente fare perché il mondo è un posto disordinato. Non è noto: nessuno ci fornisce questo fantastico regolamento che dice: "Oh, questo è esattamente come funziona il mondo" ", ha detto a VentureBeat in un'intervista telefonica la scorsa settimana. "Se vogliamo che la nostra IA vada là fuori nel mondo e sia in grado di pianificare e guardare avanti nei problemi in cui nessu...
Continua a Leggere

I ricercatori di DeepMind affermano che le reti neurali possono superare i modelli neurosimbolici

I cosiddetti modelli neurosimbolici, che combinano algoritmi con tecniche di ragionamento simbolico , sembrano essere molto più adatti a prevedere, spiegare e considerare possibilità controfattuali rispetto alle reti neurali. Ma i ricercatori di DeepMind affermano che le reti neurali possono superare i modelli neurosimbolici nelle giuste condizioni di test. In un documento di prestampa , i coautori descrivono un'architettura per il ragionamento spazio-temporale sui video in cui vengono appresi tutti i componenti e tutte le rappresentazioni intermedie sono distribuite (anziché simboliche) attraverso gli strati della rete neurale. Il team afferma che supera le prestazioni dei modelli neurosimbolici in tutte le domande in un set di dati popolare, con il massimo vantaggio sulle domande controfattuali. La ricerca di DeepMind potrebbe avere implicazioni per lo sviluppo di macchine che possano ragionare sulle loro esperienze. Contrariamente alle conclusioni di alcuni studi precedenti, i modelli basati esclusivamente su rappresentazioni distribuite possono effettivamente funzionare bene su compiti visivi che misurano le funzioni cognitive di alto livello, secondo i ricercatori, almeno nella misura in cui superano i modelli neurosimbolici esistenti. L'architettura della rete neurale proposta nel documento fa leva sull'attenzione per integrare efficacemente le informazioni. (L'attenzione è il meccanismo mediante il quale l'algoritmo si concentra su un singolo elemento o su pochi elementi alla volta.) È auto-supervisionato, il che significa che il modello deve dedurre oggetti mascherati nei video utilizzando le dinamiche sottostanti per estrarre più informazioni. E l'architettura garantisce che gli elementi visivi nei video corrispondano a oggetti fisici, un passo che i coautori sostengono è essenziale per il ragionamento di livello superiore. I ricercatori hanno confrontato la loro rete neurale con CoLision Events for Video REpresentation and Reasoning ( CLEVRER...
Continua a Leggere

I ricercatori scoprono sottoreti altamente efficienti all’interno di reti neurali di deep learning

APPRENDIMENTO PROFONDOLe reti neurali di deep learning sono spesso enormi e richiedono enormi quantità di potenza di calcolo, ma una nuova scoperta dimostra come questo possa essere ridotto per completare le attività in modo più efficiente. Jonathan Frankle e il suo team del MIT hanno escogitato le "ipotesi del biglietto della lotteria", che mostra come ci siano sottoreti più snelle all'interno delle reti neurali più grandi. Queste sottoreti possono completare l'attività in questione in modo più efficiente con una minore potenza di calcolo richiesta, con una delle maggiori sfide che consiste nel trovare quelle sottoreti o vincere biglietti della lotteria come il team si riferisce ad esse. Il team ha scoperto queste sottoreti all'interno di BERT, la tecnica di apprendimento automatico top di gamma per l'elaborazione del linguaggio naturale (PNL). La PNL, che è un sottocampo dell'intelligenza artificiale (AI), è responsabile della decifrazione e dell'analisi del linguaggio umano e viene utilizzata per applicazioni come la generazione di testi predittivi e chatbot. Tuttavia, BERT è grande e richiede una potenza di supercalcolo, inaccessibile alla maggior parte degli utenti. Con la nuova scoperta di queste sottoreti, potrebbe aprire tale accesso, consentendo a più utenti di utilizzare la tecnologia per sviluppare strumenti di PNL. "Stiamo raggiungendo il punto in cui dovremo rendere questi modelli più snelli ed efficienti", afferma Frankle. Secondo lui, questo sviluppo potrebbe "ridurre le barriere all'ingresso" per la PNL. BERT - "Oscenamente costoso"BERT è fondamentale per cose come il motore di ricerca di Google e ha ricevuto molta attenzione da quando Google lo ha rilasciato nel 2018. È un metodo per creare reti neurali ed è addestrato tentando molte volte di riempire il passaggio vuoto dei pezzi di scrittura. Una delle caratteristiche più impressionanti di BERT è il suo enorme set di dati di addestramento iniziale. Può quindi essere sintonizzato ...
Continua a Leggere

Una tecnica che consente ai modelli di rete di deep learning di calcolare rapidamente i livelli di confidenza

I ricercatori di intelligenza artificiale sviluppano un metodo rapido per calcolare gli intervalli di fiducia, segnalando quando il modello non dovrebbe essere attendibile I ricercatori del MIT hanno recentemente sviluppato una tecnica che consente ai modelli di rete di deep learning di calcolare rapidamente i livelli di confidenza, il che potrebbe aiutare i data scientist e altri utenti di IA a sapere quando fidarsi delle previsioni rese da un modello. I sistemi di intelligenza artificiale basati su reti neurali artificiali sono responsabili di sempre più decisioni in questi giorni, comprese molte decisioni che riguardano la salute e la sicurezza delle persone. Per questo motivo, le reti neurali dovrebbero disporre di un metodo per stimare la fiducia nei loro risultati, consentendo ai data scientist di dire quanto siano affidabili le loro previsioni. Recentemente, un team di ricercatori di Harvard e del MIT ha progettato un modo rapido per le reti neurali di generare un'indicazione della fiducia di un modello insieme alle sue previsioni. I modelli di deep learning sono diventati sempre più sofisticati negli ultimi dieci anni e ora possono facilmente superare gli esseri umani nelle attività di classificazione dei dati. I modelli di apprendimento profondo vengono utilizzati in campi in cui la salute e la sicurezza delle persone possono essere a rischio in caso di guasto, guidando veicoli autonomi e diagnosticare condizioni mediche dalle scansioni. In questi casi, non è sufficiente che un modello sia accurato al 99%, l'1% delle volte in cui il modello fallisce ha il potenziale per portare alla catastrofe. Di conseguenza, deve esserci un modo in cui i data scientist possono determinare quanto sia affidabile una determinata previsione. Esistono diversi modi in cui è possibile generare un intervallo di confidenza insieme alle previsioni delle reti neurali, ma i metodi tradizionali di stima dell'incertezza per una rete neurale sono piuttosto lenti e computazi...
Continua a Leggere

I migliori framework di deep learning disponibili

Framework popolari di deep learning: una panoramica Il deep learning è un campo più ampio dell'apprendimento automatico, che utilizza reti neurali artificiali (ANN) per derivare funzionalità di alto livello dagli input. L'architettura di deep learning o reti neurali profonde (DNN) è costituita da più livelli, in particolare i livelli nascosti tra i livelli di input e output. Alcune architetture di apprendimento profondo comuni sono reti neurali convoluzionali (CNN), reti neurali ricorrenti (RNN), memoria a lungo termine (LSTM), reti di credenze profonde (DBN), che sono state applicate alla visione artificiale, al riconoscimento audio e vocale e al linguaggio naturale casi d'uso di elaborazione (PNL). Anche i dati tabulari strutturati e non strutturati hanno mostrato buone prestazioni utilizzando modelli di deep learning. In questo articolo, parlerò dei framework di deep learning disponibili per diverse interfacce del linguaggio di programmazione. Un framework di deep learning consente a ricercatori e sviluppatori di raggiungere lo stato dell'arte in modo compatto e robusto. Aiuta nella formazione e nel test del modello utilizzando le API. Questi forniscono prestazioni di alto livello e una migliore gestione delle dipendenze. Tensorflow Sviluppato da Google Brain, Tensorflow è di gran lunga uno dei framework di deep learning più utilizzati. Tensorflow ha fornito un'ampia gamma di API (linguaggio di programmazione dell'applicazione) dalla preelaborazione alla modellazione dei dati. È scritto in Python, C ++ e CUDA. Funziona su quasi tutte le piattaforme: Linux, Windows, macOS, iOS e Android. Per Android e iOS, Tensorflow fornisce la versione TensorflowLite. Per la distribuzione, Tensorflow dispone di un potente supporto per il clustering. Tensorflow può essere utilizzato anche con CPU, GPU e TPU. Tensorflow ha un'eccellente documentazione sul suo sito Web ufficiale contenente tutti i moduli. L'ultima versione Tensorflow 2.0 ha subito importanti prog...
Continua a Leggere

I 5 migliori modelli di rete neurale per il deep learning

I 5 migliori modelli di rete neurale per il deep learning e le loro applicazioni Le reti neurali sono una serie di algoritmi che identificano le relazioni sottostanti in un insieme di dati. Questi algoritmi sono fortemente basati sul modo in cui opera un cervello umano. Queste reti possono adattarsi al cambiamento di input e generare il miglior risultato senza la necessità di riprogettare i criteri di output. In un certo senso, queste reti neurali sono simili ai sistemi dei neuroni biologici. Il deep learning è una parte importante del machine learning e gli algoritmi di deep learning si basano su reti neurali . Esistono diverse architetture di rete neurale con caratteristiche differenti, adatte per applicazioni particolari. Qui, esploreremo alcune delle architetture più importanti, in particolare nel contesto del deep learning. Multilayer Perceptron (MLP) Multilayer Perceptron (MLP) è una classe di reti neurali artificiali feed-forward . Il termine perceptron si riferisce in particolare a un singolo modello di neurone che è un precursore di una rete neurale più ampia. Un MLP è costituito da tre livelli principali di nodi: un livello di input, un livello nascosto e un livello di output. Nello strato nascosto e in quello di output, ogni nodo è considerato come un neurone che utilizza una funzione di attivazione non lineare. MLP utilizza una tecnica di apprendimento supervisionato chiamata backpropagation per la formazione. Quando una rete neurale viene inizializzata, vengono impostati i pesi per ogni neurone. La backpropagation aiuta a regolare i pesi dei neuroni per ottenere un output più vicino al previsto. Gli MLP sono ideali per progetti che coinvolgono set di dati tabulari, problemi di previsione di classificazione e problemi di previsione di regressione. Rete neurale di convoluzione CNN Il modello della rete neurale di convoluzione (CNN) elabora i dati che hanno uno schema a griglia come le immagini. È progettato per apprendere automaticame...
Continua a Leggere

Intelligenza artificiale e senso comune degli animali per migliorare l’apprendimento per rinforzo

I ricercatori guardano agli animali per dare un senso comune ai sistemi di apprendimento per rinforzo I ricercatori di intelligenza artificiale di istituti come l'Imperial College di Londra, l'Università di Cambridge e Google DeepMind cercano ispirazione negli animali su come migliorare le prestazioni dei sistemi di apprendimento per rinforzo . In un documento congiunto pubblicato su CellPress Reviews , intitolato "Intelligenza artificiale e senso comune degli animali", i ricercatori sostengono che la cognizione animale fornisce utili parametri di riferimento e metodi di valutazione per gli agenti di apprendimento per rinforzo e può anche informare l'ingegneria di compiti e ambienti. I ricercatori e gli ingegneri di intelligenza artificiale hanno a lungo cercato ispirazione nelle reti neurali biologiche durante la progettazione di algoritmi, utilizzando i principi della scienza comportamentale e delle neuroscienze per informare la struttura degli algoritmi. Tuttavia, la maggior parte degli spunti che i ricercatori di intelligenza artificiale prendono dai campi delle neuroscienze / scienze del comportamento sono basati sugli esseri umani, con la cognizione dei bambini piccoli e dei neonati che funge da punto focale. I ricercatori di intelligenza artificiale devono ancora prendere molta ispirazione dai modelli animali, ma la cognizione animale è una risorsa non sfruttata che ha il potenziale per portare a importanti scoperte nello spazio dell'apprendimento per rinforzo. I sistemi di apprendimento per rinforzo profondo vengono addestrati attraverso un processo di tentativi ed errori, rinforzato con ricompense ogni volta che un agente di apprendimento per rinforzo si avvicina al completamento di un obiettivo desiderato. Questo è molto simile a insegnare a un animale a svolgere un compito desiderato usando il cibo come ricompensa. Biologi e specialisti in cognizione animale hanno condotto molti esperimenti per valutare le capacità cognitive di una varietà di a...
Continua a Leggere

Andare oltre il cervello umano: il deep learning e la biologia sintetica

Andare oltre il cervello umano: il deep learning assume la biologia sintetica Il lavoro del membro della Wyss Core Faculty Peng Yin in collaborazione con Collins e altri ha dimostrato che è possibile combinare diversi interruttori di appoggio per calcolare la presenza di più "trigger", in modo simile alla scheda logica di un computer. Il DNA e l' RNA sono stati paragonati a "manuali di istruzioni" contenenti le informazioni necessarie al funzionamento delle "macchine" viventi. Ma mentre le macchine elettroniche come computer e robot sono progettate da zero per servire uno scopo specifico, gli organismi biologici sono governati da un insieme di funzioni molto più disordinato e complesso che non ha la prevedibilità del codice binario. Inventare nuove soluzioni ai problemi biologici richiede di prendere in considerazione variabili apparentemente intrattabili, un compito che è scoraggiante anche per i cervelli umani più intrepidi. Due team di scienziati del Wyss Institute dell'Università di Harvard e del Massachusetts Institute of Technology hanno ideato percorsi per aggirare questo ostacolo andando oltre il cervello umano; hanno sviluppato una serie di algoritmi di apprendimento automatico in grado di analizzare risme di sequenze "toehold" basate su RNA e prevedere quali saranno più efficaci nel rilevare e rispondere a una sequenza target desiderata. Come riportato in due articoli pubblicati contemporaneamente oggi (7 ottobre 2020) su Nature Communications , gli algoritmi potrebbero essere generalizzabili anche ad altri problemi della biologia sintetica e potrebbero accelerare lo sviluppo di strumenti biotecnologici per migliorare la scienza e la medicina e aiutare a salvare vite umane. "Questi risultati sono entusiasmanti perché segnano il punto di partenza della nostra capacità di porre domande migliori sui principi fondamentali del ripiegamento dell'RNA, che dobbiamo conoscere al fine di ottenere scoperte significative e costruire tecnologie biolog...
Continua a Leggere

Microsoft rilascia l’ultima versione di DeepSpeed

Microsoft rilascia l'ultima versione di DeepSpeed, la sua libreria Python per l'ottimizzazione del deep learning In Pics: Microsoft recupera il suo datacenter subacqueo dopo 2 anni Di recente, Microsoft ha annunciato i nuovi progressi nella popolare libreria di ottimizzazione del deep learning nota come DeepSpeed . Questa libreria è una parte importante della nuova iniziativa AI at Scale di Microsoft per abilitare le funzionalità AI di prossima generazione su larga scala. DeepSpeed, la libreria open source per l' ottimizzazione della formazione per l' apprendimento approfondito, è stata presentata a febbraio di quest'anno insieme a ZeRO (Zero Redundancy Optimiser) , una tecnologia di ottimizzazione della memoria nella libreria che aiuta l'addestramento di modelli di grandi dimensioni migliorando la scala, la velocità, i costi e l'usabilità . I ricercatori del gigante tecnologico hanno sviluppato questa libreria per rendere la formazione distribuita facile, efficiente ed efficace. DeepSpeed ​​ora può addestrare un modello di linguaggio con un trilione di parametri utilizzando solo 800 GPU NVIDIA V100. DeepSpeed ​​ha combinato tre potenti tecnologie per consentire l'addestramento di modelli su scala trilioni e per scalare a migliaia di GPU, che includono addestramento parallelo ai dati, addestramento parallelo del modello e addestramento parallelo della pipeline. Caratteristiche Ci sono diverse funzionalità intuitive di questa libreria di deep learning . Alcuni di loro sono menzionati di seguito: Velocità: DeepSpeed ​​raggiunge prestazioni elevate e convergenza rapida attraverso una combinazione di ottimizzazioni dell'efficienza su elaborazione, memoria, IO, ecc. E ottimizzazioni dell'efficacia su ottimizzazione e ottimizzatori avanzati di iperparametri. Efficienza della memoria: la libreria fornisce parallelismo dei dati efficiente in termini di memoria e consente l'addestramento di modelli senza parallelismo del modello. Scalabilità: DeepSpeed...
Continua a Leggere

GPT-3 contro BERT

GPT-3 Vs BERT per attività NLP Le 8 migliori tecniche di data mining nel machine learning Gli immensi progressi nell'elaborazione del linguaggio naturale hanno dato origine a modelli di architettura innovativi come GPT-3 e BERT . Tali modelli pre-addestrati hanno democratizzato l'apprendimento automatico, che consente anche alle persone con un background meno tecnologico di creare applicazioni di ML in modo pratico , senza addestrare un modello da zero. Grazie alle capacità di risolvere problemi versatili come fare previsioni accurate, trasferire l'apprendimento e l'estrazione di caratteristiche, la maggior parte dei nuovi modelli di PNL sono tipicamente addestrati su una vasta gamma di dati, in miliardi. Questi modelli pre-addestrati annullano lo scopo di addestrare un modello da zero a meno che non si sia interessati a investire molto tempo e sforzi per costruirne uno. Invece, i modelli di linguaggio come BERT possono essere facilmente ottimizzati e possono essere utilizzati per le attività richieste. Tuttavia, l'avvento di versioni più avanzate come GPT-3 ha reso il lavoro ancora più semplice per gli utenti, dove è sufficiente spiegare l'attività e con un clic è possibile creare l'applicazione desiderata. Tali progressi evidenziano le competenze all'avanguardia che portano. Detto questo, può essere difficile per molti ottenere una comprensione completa del confronto tra questi modelli di PNL pre-addestrati - esempio calzante : GPT-3 e BERT . Non solo condividono molte somiglianze, ma anche i modelli più recenti sono sempre definiti per superare i modelli precedenti su alcuni o altri parametri. Pertanto, questo articolo comprenderà la panoramica di ciascun modello, insieme al loro confronto. Prima di entrare nei confronti, parliamo un po 'dei due modelli insieme ad alcuni dei loro vantaggi. BERT BERT, aka Bidirectional Encoder Representations from Transformers, è un modello NLP pre-addestrato sviluppato da Google nel 2018. Infatti, prima c...
Continua a Leggere
Top

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi