Home / Archive by category "deep learning apprendimento profondo"

deep learning apprendimento profondo

DeepMind vuole far coesistere deep learning e algoritmi classici

Il deep learning sarà davvero all'altezza delle sue promesse? In realtà non lo sappiamo. Ma se lo farà, dovrà assimilare il modo in cui funzionano gli algoritmi classici dell'informatica. Questo è ciò su cui sta lavorando DeepMind e il suo successo è importante per l'eventuale diffusione delle reti neurali in applicazioni commerciali più ampie. Fondata nel 2010 con l'obiettivo di creare AGI - intelligenza artificiale generale, un'intelligenza artificiale per tutti gli usi che imita veramente l'intelligenza umana - DeepMind è in prima linea nella ricerca sull'intelligenza artificiale. La società è anche supportata da pesi massimi del settore come Elon Musk e Peter Thiel.  Acquisita da Google nel 2014, DeepMind ha fatto notizia per progetti come AlphaGo , un programma che ha battuto il campione del mondo al gioco del Go in una partita di cinque partite, e AlphaFold , che ha trovato una soluzione a un grand sfida in biologia . Ora DeepMind ha messo gli occhi su un'altra grande sfida: collegare i mondi del deep learning e dell'informatica classica per consentire al deep learning di fare tutto . In caso di successo, questo approccio potrebbe rivoluzionare l'intelligenza artificiale e il software come li conosciamo. Petar Veličković è un ricercatore senior presso DeepMind. Il suo ingresso nell'informatica è avvenuto attraverso il ragionamento algoritmico e il pensiero algoritmico utilizzando algoritmi classici. Da quando ha iniziato a fare ricerche sull'apprendimento profondo, ha voluto conciliare l'apprendimento profondo con gli algoritmi classici che inizialmente lo hanno entusiasmato per l'informatica. Nel frattempo, Charles Blundell è un responsabile della ricerca presso DeepMind che è interessato a far sì che le reti neurali utilizzino molto meglio le enormi quantità di dati a cui sono esposte. Gli esempi includono ottenere una rete per dirci ciò che non sa, per imparare molto più rapidamente o per superare le aspettative. Quando Veličković ha incontrato Blundell a D...
Continua a Leggere

Spell piattaforma operativa che fornisce gli strumenti necessari per addestrare modelli di intelligenza artificiale basati su algoritmi di deep learning

Spell svela la piattaforma per le operazioni di deep learning per ridurre i costi di formazione sull'IA  Spell ha presentato oggi una piattaforma operativa che fornisce gli strumenti necessari per addestrare modelli di intelligenza artificiale basati su algoritmi di deep learning. Le piattaforme attualmente utilizzate per addestrare i modelli di intelligenza artificiale sono ottimizzate per algoritmi di apprendimento automatico. I modelli di intelligenza artificiale basati su algoritmi di deep learning richiedono la propria piattaforma di operazioni di deep learning (DLOps), ha detto a VentureBeat Tim Negris, capo del marketing di Spell.  La piattaforma Spell automatizza l'intero flusso di lavoro di deep learning utilizzando strumenti sviluppati dall'azienda per aiutare le organizzazioni a creare e addestrare modelli di intelligenza artificiale per applicazioni di visione artificiale e riconoscimento vocale che richiedono algoritmi di deep learning. Radici profondeGli algoritmi di deep learning fanno risalire la loro discendenza alle reti neurali in un campo di apprendimento automatico che struttura gli algoritmi in strati per creare una rete neurale in grado di apprendere e prendere decisioni intelligenti da sola. Gli artefatti e i modelli creati utilizzando algoritmi di deep learning, tuttavia, non si prestano alle stesse piattaforme utilizzate per gestire le operazioni di apprendimento automatico (MLOps), ha affermato Negris. Un modello di intelligenza artificiale basato su algoritmi di deep learning può richiedere il monitoraggio e la gestione di centinaia di esperimenti con migliaia di parametri che coprono un gran numero di unità di elaborazione grafica (GPU), ha osservato Negris. La piattaforma Spell risponde specificamente alla necessità di gestire, automatizzare, orchestrare, documentare, ottimizzare, distribuire e monitorare i modelli di deep learning durante l'intero ciclo di vita, ha affermato. "I team di data science devono essere in grado di spiegare e...
Continua a Leggere

Il sistema Deep Learning di apprendimento profondo impara meglio quando è distratto

  Gli scienziati informatici dei Paesi Bassi e della Spagna hanno determinato come un sistema di deep learning apprende meglio quando è distratto . L'intelligenza artificiale (AI) è finalizzata al riconoscimento delle immagini e può imparare a riconoscere l'ambiente circostante. Il team è stato in grado di semplificare il processo di apprendimento dopo aver forzato il sistema a concentrarsi sulle caratteristiche secondarie. Reti neurali convoluzionaliIl sistema di deep learning si basa su reti neurali convoluzionali (CNN), che sono una forma di deep learning per i sistemi di intelligenza artificiale.  Estefanía Talavera Martinez è docente e ricercatrice presso il Bernoulli Institute for Mathematics, Computer Science and Artificial Intelligence dell'Università di Groningen nei Paesi Bassi. "Queste CNN hanno successo, ma non capiamo appieno come funzionano", afferma Talavera Martinez. Talavera Martinez ha utilizzato la CNN per analizzare le immagini provenienti da fotocamere indossabili mentre studiava il comportamento umano. Parte del suo lavoro si è concentrato sullo studio delle interazioni umane con il cibo, quindi ha deciso di fare in modo che il sistema riconosca i diversi ambienti in cui le persone incontrano il cibo. "Ho notato che il sistema ha commesso errori nella classificazione di alcune immagini e avevo bisogno di sapere perché questo è accaduto", ha detto. Ha fatto uso di mappe di calore e ha analizzato quali parti delle immagini sono state utilizzate dalla CNN per identificare l'ambientazione. "Ciò ha portato all'ipotesi che il sistema non stesse esaminando abbastanza dettagli", ha detto. Un esempio è stato quello di un sistema di intelligenza artificiale che ha imparato da solo a usare le tazze per identificare una cucina. In questo esempio, l'intelligenza artificiale potrebbe classificare erroneamente aree come soggiorni e uffici, che spesso hanno anche tazze. Talavera Martinez e il suo team hanno quindi deciso di sviluppare una soluzione. I suoi col...
Continua a Leggere

Come ottimizzare i modelli di deep learning

 Le prestazioni di un modello dipendono fortemente dall'ottimizzazione degli iperparametri  L'aumento del numero di parametri, latenza, risorse necessarie per l'addestramento, ecc. ha reso difficile il lavoro con il deep learning. I ricercatori di Google, in un ampio sondaggio, hanno individuato aree problematiche comuni per i professionisti del deep learning e suggerito punti di controllo chiave per mitigare queste sfide.  Ad esempio, un professionista del deep learning potrebbe affrontare le seguenti sfide durante l'implementazione di un modello:   La formazione potrebbe essere un costo una tantum, l'implementazione e l'esecuzione dell'inferenza per un lungo periodo di tempo potrebbe comunque rivelarsi costosa in termini di consumo di RAM lato server, CPU, ecc.L'utilizzo del minor numero possibile di dati per l'addestramento è fondamentale quando i dati utente potrebbero essere sensibili.Le nuove applicazioni sono dotate di nuovi vincoli (intorno alla qualità del modello o al footprint) che i modelli standard esistenti potrebbero non essere in grado di affrontare.La distribuzione di più modelli sulla stessa infrastruttura per applicazioni diverse potrebbe esaurire le risorse disponibili.La maggior parte di queste sfide si riduce alla mancanza di efficienza. Secondo Gaurav Menghani di Google Research, se si dovesse implementare un modello su smartphone in cui l'inferenza è vincolata o costosa a causa dei server cloud, si dovrebbe prestare attenzione all'efficienza dell'inferenza. E se un modello di grandi dimensioni deve essere addestrato da zero con risorse di addestramento limitate, i modelli progettati per l'efficienza dell'addestramento starebbero meglio. Secondo Menghani, i professionisti dovrebbero mirare a raggiungere l'ottimale pareto, cioè qualsiasi modello che scegliamo dovrebbe avere il migliore dei compromessi. E si può sviluppare un modello pareto-ottimale usando il seguente modello mentale.   Compressione del modello Per i modelli molto grandi, è poss...
Continua a Leggere

Come costruire modelli di deep learning più piccoli, più veloci e migliori

Il ricercatore di Google Gaurav Menghani ha proposto un metodo per rendere "i modelli di deep learning più piccoli, più veloci e migliori". L'apprendimento profondo ha ampie applicazioni nell'analisi del sentimento, nella comprensione del linguaggio naturale, nella visione artificiale, ecc. La tecnologia sta crescendo a una velocità vertiginosa grazie alla rapida innovazione. Tuttavia, tali innovazioni richiedono un numero maggiore di parametri e risorse. In altre parole, il modello è buono quanto le metriche. A tal fine, il ricercatore di Google Gaurav Menghani ha pubblicato un documento sull'efficienza del modello. L'indagine copre il panorama dell'efficienza dei modelli, dalle tecniche di modellazione al supporto hardware. Ha proposto un metodo per rendere "i modelli di deep learning più piccoli, più veloci e migliori". SfideMenghani sostiene che mentre i modelli più grandi e complicati si comportano bene nei compiti su cui sono addestrati, potrebbero non mostrare le stesse prestazioni se applicati a situazioni di vita reale. Di seguito sono riportate le sfide che i professionisti affrontano durante la formazione e l'implementazione dei modelli: Il costo della formazione e dell'implementazione di modelli di deep learning di grandi dimensioni è elevato. I modelli di grandi dimensioni richiedono molta memoria e lasciano un'impronta di carbonio maggiore.Alcune applicazioni di deep learning devono essere eseguite in tempo reale su IoT e dispositivi intelligenti. Ciò richiede l'ottimizzazione dei modelli per dispositivi specifici.Creazione di modelli di addestramento con il minor numero di dati possibile quando i dati dell'utente potrebbero essere sensibili. I modelli standard potrebbero non essere sempre in grado di affrontare i vincoli delle nuove applicazioni.L'addestramento e l'implementazione di più modelli sulla stessa infrastruttura per applicazioni diverse possono esaurire le risorse disponibili.Un modello mentaleMenghani presenta un...
Continua a Leggere

DeepMind e DNDi con l’algoritmo AlphaFold per accelerare la scoperta di farmaci

DeepMind sfrutta l'intelligenza artificiale per accelerare il processo di scoperta dei farmaci   La partnership di DeepMind con DNDi per l'utilizzo di AlphaFold può accelerare la scoperta di farmaci per le malattie trascurate Tra le molte malattie tropicali che affliggono la popolazione colpita dalla povertà dei paesi sottosviluppati e in via di sviluppo, la leishmaniosi è una. La sua forma fatale, la leishmaniosi viscerale, colpisce più di tre lakh di persone ogni anno. Tuttavia, la scoperta e lo sviluppo di farmaci per la malattia sono stati lenti per ragioni tra cui la mancanza di capitale, la complessità della procedura e il tempo impiegato per determinare la struttura proteica dei patogeni.   Ruolo della struttura proteica nella scoperta di farmaciLe proteine ​​sono una catena complessa di amminoacidi collegati tra loro in uno schema unico. Determinare la catena di amminoacidi che formano la proteina è difficile. Ma ciò che è più impegnativo è determinare il modello in cui la proteina si ripiega su se stessa.  Capire questo implica comprendere le forze interatomiche nella struttura. È come risolvere un puzzle che richiede solo microsecondi per formarsi. La struttura proteica tridimensionale ha siti attivi in ​​cui i substrati si attaccano e completano i processi cellulari come una serratura e una chiave.  AlphaFold rivoluziona la biologia strutturaleLe procedure scientifiche comunemente utilizzate come la cristallografia a raggi X, la microscopia crioelettronica e la risonanza magnetica nucleare sono costose e richiedono tempo. Dei 200 milioni di proteine ​​conosciute, gli scienziati hanno scoperto la struttura di solo 1.70.000 a causa di queste noiose procedure.  Il laboratorio DeepMind nel Regno Unito ha sviluppato un'alternativa a tali tecniche. Il loro algoritmo proprietario AlphaFold è in grado di prevedere la struttura di proteine ​​precedentemente irrisolvibili in modo efficiente in termini di tempo e può rivelarsi un punto di svolta.  Il team di DeepMin...
Continua a Leggere

Quali sono le architetture di deep learning utilizzate dai computer per rilevare gli oggetti 

Panoramica delle architetture di deep learning utilizzate dai computer per rilevare gli oggetti  Qual è la posizione della tua azienda nella curva di adozione dell'AI? Partecipa al nostro sondaggio sull'intelligenza artificiale per scoprirlo. Le reti neurali profonde sono diventate famose per la loro capacità di elaborare le informazioni visive. E negli ultimi anni sono diventati un componente chiave di molte  applicazioni di visione artificiale . Tra i problemi chiave che le reti neurali possono risolvere c'è il rilevamento e la localizzazione di oggetti nelle immagini. Il rilevamento degli oggetti viene utilizzato in molti ambiti diversi, tra cui la  guida autonoma , la videosorveglianza e l'assistenza sanitaria.  In questo post esaminerò brevemente le  architetture di deep learning  che aiutano i computer a rilevare gli oggetti. Reti neurali convoluzionaliUno dei componenti chiave della maggior parte delle applicazioni di visione artificiale basate sul deep learning è la  rete neurale convoluzionale  (CNN). Inventate negli anni '80 dal pioniere del deep learning  Yann LeCun , le CNN sono un tipo di rete neurale efficiente nel catturare modelli in spazi multidimensionali. Ciò rende le CNN particolarmente adatte per le immagini, sebbene vengano utilizzate anche per elaborare altri tipi di dati. (Per concentrarci sui dati visivi, considereremo le nostre reti neurali convoluzionali bidimensionali in questo articolo.) https://youtu.be/KiftWz544_8 Ogni rete neurale convoluzionale è composta da uno o più  livelli convoluzionali , un componente software che estrae valori significativi dall'immagine in ingresso. E ogni livello di convoluzione è composto da diversi filtri, matrici quadrate che scorrono sull'immagine e registrano la somma ponderata dei valori dei pixel in posizioni diverse. Ogni filtro ha valori diversi ed estr...
Continua a Leggere

Scoprire le nostre “visite nascoste” con i dati del telefono cellulare e l’apprendimento automatico

  Ricercatori dalla Cina e dagli Stati Uniti hanno collaborato a una ricerca che utilizza tecniche di apprendimento automatico per discernere le "visite nascoste" che facciamo quando ci spostiamo nel paese, ma non facciamo abbastanza telefonate o non utilizziamo i nostri telefoni abbastanza per un quadro completo del nostro movimenti da formare altrimenti da record di dati di telecomunicazioni. Il documento , intitolato Identificazione delle visite nascoste da dati di registrazione dettagliati di chiamate sparse , è condotto da Zhan Zhao dell'Università di Hong Kong, in collaborazione con Haris N. Koutsopoulos della Northeastern University di Boston e Jinhua Zhao del MIT. La premessa della ricerca è utilizzare i record di connettività mobile (inclusi dati mobili, SMS e chiamate vocali) di utenti altamente attivi per sviluppare un modello in grado di indovinare con maggiore precisione i modelli di movimento degli utenti meno attivi.  Sebbene i ricercatori ammettano che ci sono implicazioni sulla privacy nello sviluppo di tale lavoro, e nonostante l'obiettivo dichiarato del progetto di ottenere dettagli maggiori e più granulari sui percorsi degli utenti, sostengono che l'obiettivo è quello di raccogliere un quadro più generale del movimento. Notano inoltre che i dati del Call Detail Record (CDR) che alimentano tali studi hanno una bassa risoluzione spaziale e sono soggetti a "rumore di posizionamento" a causa del cambiamento di posizione dell'utente rispetto alle torri dei telefoni cellulari che stanno passando, e suggeriscono che questa limitazione di per sé è una forma di tutela della privacy: 'L'applicazione target del nostro studio è il rilevamento del viaggio e la stima dell'OD[*], che vengono eseguite a livello aggregato, non a livello individuale. I modelli sviluppati possono essere distribuiti direttamente sui server di database dei gestori di telecomunicazioni, senza necessità di trasferimento dati. Inoltre, rispetto ad altre forme di big data, come i social ...
Continua a Leggere

Google ha utilizzato l’apprendimento per rinforzo per progettare chip acceleratori di intelligenza artificiale di nuova generazione

  In un documento pubblicato un anno fa, gli scienziati di Google Research, incluso il responsabile dell'intelligenza artificiale di Google Jeff Dean, hanno descritto un approccio basato sull'intelligenza artificiale alla progettazione di chip che potrebbe imparare dall'esperienza passata e migliorare nel tempo, migliorando nel generare architetture per componenti invisibili. Hanno affermato che ha completato i progetti in media in meno di sei ore, che è significativamente più veloce delle settimane che impiegano gli esperti umani nel ciclo. Sebbene il lavoro non fosse del tutto nuovo - si basava su una tecnica proposta dagli ingegneri di Google in un documento pubblicato nel marzo 2020 - ha fatto avanzare lo stato dell'arte in quanto implicava che il posizionamento dei transistor su chip potesse essere ampiamente automatizzato. Ora, in un articolo pubblicato sulla rivista Nature , il team originale di ricercatori di Google afferma di aver messo a punto la tecnica per progettare una generazione imminente, precedentemente non annunciata, di unità di elaborazione del tensore (TPU) di Google, circuiti integrati specifici per l'applicazione (ASIC). ) sviluppato specificamente per accelerare l'IA.  Se resa pubblicamente disponibile, la tecnica dei ricercatori di Google potrebbe consentire alle startup a corto di liquidità di sviluppare i propri chip per l'intelligenza artificiale e altri scopi specializzati. Inoltre, potrebbe aiutare ad abbreviare il ciclo di progettazione dei chip per consentire all'hardware di adattarsi meglio alla ricerca in rapida evoluzione. "Fondamentalmente, in questo momento nel processo di progettazione, hai strumenti di progettazione che possono aiutarti a fare un po' di layout, ma hai esperti di posizionamento e routing umani che lavorano con quegli strumenti di progettazione per ripetere molte, molte volte", ha detto Dean a VentureBeat in un precedente intervista. "È un processo di più settimane per passare effettivamente dal progetto che si ...
Continua a Leggere

Troppa priorità allo sviluppo di modelli di deep learning rispetto alla qualità dei dati di formazione Anna Rogers sostiene un approccio contrario

Appello ai ricercatori ML: dai una possibilità alla cura dei datiLa cura dei dati è l'organizzazione e l'integrazione dei dati raccolti da più fonti.La maggior parte dei ricercatori in PNL dà la priorità allo sviluppo di modelli di deep learning rispetto alla qualità dei dati di formazione. La relativa mancanza di attenzione fa sì che i dati di addestramento raccolgano modelli spuri, pregiudizi sociali e artefatti di annotazione.  Anna Rogers del Center of Social Data Science, Università di Copenhagen, ha recentemente presentato un documento che sottolinea l'importanza di prendersi cura dei dati come primo passo verso la costruzione di modelli di PNL di successo. La cura dei dati è l'organizzazione e l'integrazione dei dati raccolti da più fonti. Il processo prevede l'autenticazione, l'archiviazione, la gestione, la conservazione per il recupero e la rappresentazione. Il suo articolo esponeva gli argomenti a favore e contro la cura dei dati. Perché la cura dei dati è importanteNel suo articolo, Rogers fornisce i seguenti argomenti a sostegno della cura dei dati: Pregiudizi sociali : il testo scritto può contenere tutti i tipi di pregiudizi sociali basati su razza, genere, stato sociale, età e abilità. I modelli possono apprendere questi pregiudizi e, quando utilizzati in scenari del mondo reale, possono propagarli e amplificarli ulteriormente. Ciò pone i gruppi di minoranza in uno svantaggio significativo. È imperativo selezionare i dati tenendo conto delle caratteristiche socioculturali e promuovere un'equa rappresentanza di tutti i gruppi sociali. Privacy : l'utilizzo di informazioni di identificazione personale nei dati di formazione può dar luogo a problemi di privacy e sicurezza. Ad esempio, uno studio ha mostrato che GPT-2 memorizzava le informazioni di contatto personali anche quando apparivano solo su poche pagine web. "Decidere cosa non dovrebbe essere ricordato è chiaramente un problema di cura dei dati", scrive Rogers. Sicurezza : il contraddittorio uni...
Continua a Leggere
Top

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi