Home / Archive by category "Computer Vision"

Computer Vision

I sensori Lidar usati nei gemelli digitali e nel metaverso 

I sensori Lidar passano dalle auto a guida autonoma ai gemelli digitali e al metaverso  La tecnologia Lidar ha attirato l'attenzione di una serie di tecnologie avanzate che promettono di creare le auto a guida autonoma di domani. Ma i sensori lidar sono anche importanti negli sforzi per produrre gemelli digitali e casi d'uso del metaverso. Un aspetto fondamentale dei gemelli digitali risiede nell'aggiornamento dei modelli del mondo reale con alta fedeltà e ad alta frequenza. Lidar integra tecnologie come le fotocamere stereoscopiche per l'acquisizione di dati 3D dal mondo fisico che potrebbero essere convogliati in gemelli digitali o applicazioni metaverse.  La tecnologia core lidar esiste da quasi 50 anni, ma fino a poco tempo fa era costosa da costruire e complicata da inserire in nuovi flussi di lavoro. Tutto ciò sta iniziando a cambiare con l'avvento di nuovi approcci, implementazioni più economiche e flussi di lavoro di dati lidar più flessibili. I sensori Lidar si mostrano promettenti nelle auto autonome e nei relativi sistemi perché misurano la distanza dagli oggetti a velocità incredibili e con alta precisione. Funzionano in modo molto simile al radar, utilizzando la luce anziché le onde radio: il segnale lidar viene riflesso dagli oggetti e viene quindi misurata la luce che ritorna. Il lidar tradizionale misura il tempo di volo dei segnali, ma le tecniche più recenti utilizzano altre proprietà della luce per ridurre i costi, migliorare la precisione o accelerare i tempi di reazione. Il caso aziendale per i sensori lidarIl prezzo di questi sistemi è sceso da decine di migliaia di dollari alcuni anni fa a decine di dollari per sensori prodotti in serie incorporati in tablet e smartphone come l'iPhone 12 Pro. Apple ha taciuto sulla sua fonte lidar, ma uno smontaggio del primo iPad con la tecnologia ha trovato uno scanner laser di Lumentum e un sensore di Sony combinati in un sistema lidar. Fattori di forma lidar più piccoli consentiranno alla cattura lidar ter...
Continua a Leggere

Come la profilazione 3D conferisce alla visione artificiale una dimensione aggiuntiva 

In che modo la creazione di profili 3D conferisce alla visione artificiale una dimensione aggiuntiva  L'uso della visione artificiale nelle città intelligenti consente loro di funzionare senza problemi. Allo stesso tempo, considerando come la visione artificiale sia destinata a fungere da catalizzatore per la digitalizzazione in diversi settori in futuro, è naturale aspettarsi che la tecnologia si evolva nel tempo. Di conseguenza, negli ultimi anni la computer vision ha subito diverse evoluzioni per coprire più aree di applicazione.  La profilazione 3D, una strategia di visione 3D che consente l'acquisizione di immagini tridimensionali per vari scopi, può portare ai suddetti miglioramenti nella visione artificiale. Ecco come l'inclusione della profilazione 3D migliora la visione artificiale: Maggiore precisione dimensionaleNonostante i progressi, gli strumenti di visione artificiale potrebbero sempre avere una dose aggiuntiva di chiarezza e accuratezza quando acquisiscono immagini o video che verranno successivamente utilizzati nei sistemi di riconoscimento facciale o in altri sistemi basati sull'intelligenza artificiale. La profilazione 3D utilizza la profilatura laser per il compito di creare immagini 3D. Ciò consente di acquisire immagini o video con il massimo grado di precisione, con la risoluzione della profondità spesso misurabile in micrometri (μm). Di conseguenza, i dati di input nei sistemi di visione artificiale 3D non contengono quasi alcuna variazione. Tali dati possono essere messi a frutto dall'apprendimento automatico e dagli strumenti di intelligenza artificiale. La maggiore precisione consente inoltre ai ricercatori di avere un'idea migliore della misurazione della profondità o dell'altezza. Ad esempio, è possibile rispondere a determinate domande relative all'altezza di determinati oggetti in un'immagine, nonché alle informazioni relative agli oggetti vicini. In che modo la creazione di profili 3D conferisce alla visione artificiale una dimensione...
Continua a Leggere

Controllare del volo dei droni con la vista come essere a bordo

Teleoperazione GPA: teleoperazione aerea assistita sicura con maggiore percezione dello sguardo I ricercatori cinesi hanno sviluppato un nuovo algoritmo che può consentire il controllo del volo dei droni interpretando direttamente la visione dell'utente. In effetti, l'operatore umano "diventa" il drone e guida la sua traiettoria in base alla direzione dello sguardo dell'utente.  Il documento si chiama GPA-Teleoperation: Gaze Enhanced Perception-aware Safe Assistive Aerial Teleoperation e proviene da ricercatori dell'Institute of Cyber-Systems and Control dell'Università di Zhejiang e della School of Automation del Nanjing Institute of Technology. I ricercatori hanno anche pubblicato oggi un video che dimostra le capacità del sistema. i ricercatori sono Qianhao Wang , Botao He , Zhiren Xun , Chao Xu , Fei Gao Oltre il controllo astrattoI ricercatori stanno cercando di rimuovere lo strato di astrazione per il controllo dei droni, sostenendo che le unità di controllo secondarie richiedono addestramento e sono solo un'astrazione approssimativa dell'intento dell'utente, portando a manovre imprevedibili e interpretazioni errate dei movimenti di guida. Un documento all'inizio dell'anno, degli stessi ricercatori, ha sottolineato l'importanza della visibilità in linea di vista nella navigazione dei droni, e il lavoro attuale è uno sviluppo dei risultati di quella ricerca .  AlgoritmoGPA utilizza un ottimizzatore di back-end che affina lo sguardo dell'utente nel percorso ottimale più sicuro, probabilmente equivalente all'"auto mira" nei videogiochi, a latenza praticamente zero (per ovvie ragioni). I moduli del sottosistema UAV sono installati direttamente nel drone, comprese le strutture per la stima dello stato, la pianificazione, la mappatura e i moduli di controllo. Il sistema locale riceve i dati dello sguardo da un'unità a occhio singolo montata in un'imbracatura indossata dall'utente finale, che fornisce un percorso topologico iniziale, che il sistema deve interpretare ...
Continua a Leggere

L’ apprendimento automatico in grado di identificare le persone nascoste semplicemente osservando l’illuminazione indiretta sul muro

L'intelligenza artificiale scopre l'attività segreta rivelata dai muri vuoti What You Can Learn by Staring at a Blank Wall Una collaborazione di ricerca, che include collaboratori di NVIDIA e MIT, ha sviluppato un metodo di apprendimento automatico in grado di identificare le persone nascoste semplicemente osservando l'illuminazione indiretta su una parete vicina, anche quando le persone non si trovano vicino alle sorgenti luminose illuminanti. Il metodo ha una precisione vicina al 94% quando si tenta di identificare il numero di persone nascoste e può anche identificare l'attività specifica di una persona nascosta amplificando massicciamente i rimbalzi di luce che sono invisibili agli occhi umani e ai metodi standard di amplificazione dell'immagine. https://youtu.be/K4PapXyX-bI Il nuovo documento si intitola What You Can Learn by Staring at a Blank Wall , con contributi di NVIDIA e MIT, nonché dell'Israel Institute of Technology. I precedenti approcci per "vedere intorno alle pareti" si basavano su sorgenti luminose controllabili o su conoscenze pregresse di sorgenti note di occlusione, mentre la nuova tecnica può essere generalizzata a qualsiasi nuova stanza, senza necessità di ricalibrazione. Le due reti neurali convoluzionali che individuano le persone nascoste hanno utilizzato dati ottenuti da sole 20 scene. Il progetto è rivolto a situazioni ad alto rischio e critiche per la sicurezza, per operazioni di ricerca e soccorso, attività di sorveglianza generale delle forze dell'ordine, scenari di risposta alle emergenze, rilevamento di cadute tra anziani e come mezzo per rilevare pedoni nascosti per veicoli autonomi. Valutazione passiva Come spesso accade con i progetti di visione artificiale, il compito centrale era identificare, classificare e rendere operativi i cambiamenti di stato percepiti in un flusso di immagini. La concatenazione delle modifiche porta a modelli di firma che pos...
Continua a Leggere

Capire i gesti : il KTH Royal Institute of Technology svedese sta cercando di combinare il riconoscimento vocale e gestuale in un sistema unificato e multimodale

Quando sono tornato in Gran Bretagna da alcuni anni nel Sud Italia, ci è voluto un po' per smettere di gesticolare mentre parlavo. Nel Regno Unito, sostenere il tuo discorso con movimenti audaci delle mani ti fa sembrare spropositato di caffeina; in Italia, imparando la lingua, in realtà mi ha aiutato a farmi capire . Anche adesso, nelle più rare occasioni in cui parlo italiano, le 'mani selvagge' tornano in servizio. È quasi impossibile parlare italiano senza muoversi. Negli ultimi anni, la comunicazione supportata dai gesti nella cultura italiana ed ebraica è arrivata all'attenzione del pubblico come più di un semplice tropo del lavoro di Martin Scorsese e dei primi film di Woody Allen. Nel 2013 il New York Times ha compilato una breve storia video dei gesti delle mani italiani; il mondo accademico sta iniziando a studiare le propensioni razziali per i gesti delle mani, piuttosto che liquidare l'argomento come uno stereotipo; e i nuovi emoji del Consorzio Unicode stanno colmando il deficit di gesti che deriva dalla comunicazione puramente digitale e basata sul testo. Un approccio unificato alla parola e alla gesticolazioneOra, una nuova ricerca del Dipartimento di parola, musica e udito presso il KTH Royal Institute of Technology svedese sta cercando di combinare il riconoscimento vocale e gestuale in un sistema unificato e multimodale che potrebbe potenzialmente aumentare la nostra comprensione della comunicazione basata sul linguaggio utilizzando il corpo lingua come un'aggiunta integrata al discorso, piuttosto che un campo di studio parallelo. Immagini dalla pagina di prova del progetto discorso/gesto svedese. Fonte: https://swatsw.github.io/isg_icmi21/La ricerca propone un nuovo modello chiamato sintesi integrata di discorso e gesto (ISG) e riunisce una serie di modelli neurali all'avanguardia dalla ricerca sul linguaggio e sui gesti. Il nuovo approccio abbandona il modello di pipeline lineare (in cui le informazioni gestuali sono derivate sequenzialmente dal ...
Continua a Leggere

The Optical Society presenta un sistema ottico leggero in grado di eseguire l’ispezione 3D delle superfici con una precisione su scala micron

 Il sistema compatto 3D ispeziona le superfici con precisione su scala micron  I ricercatori della The Optical Society hanno sviluppato un sistema ottico leggero in grado di eseguire l'ispezione 3D delle superfici con una precisione su scala micron. Secondo il team, questa tecnologia potrebbe essere utilizzata per migliorare l'ispezione del controllo di qualità per prodotti ad alta tecnologia come chip a semiconduttore, pannelli solari ed elettronica di consumo. La ricerca è stata pubblicata sulla rivista The Optical Society (OSA) Applied Optics.  Acquisizione di misurazioni 3DUna delle sfide dell'acquisizione di misurazioni 3D di precisione sulla linea di produzione è causata dalle vibrazioni, pertanto è necessario prelevare periodicamente campioni per l'analisi in laboratorio. Durante questo processo, i prodotti difettosi che vengono sviluppati devono essere scartati.  Per aggirare questo problema, il team ha deciso di sviluppare un sistema che potesse funzionare in un ambiente del genere, come un impianto di produzione industriale. Il team di ricerca è stato guidato da Georg Schitter della Technische Universität Wien in Austria e ha combinato uno specchio compatto 2D a sterzo rapido con un sensore cromatico confocale 1D ad alta precisione.  Ernst Csecsics ha co-diretto il gruppo di ricerca con Daniel Wertjanz.  "I sistemi di ispezione e misurazione in linea basati su robot come quello che abbiamo sviluppato possono consentire il controllo della qualità al 100% nella produzione industriale, sostituendo gli attuali metodi basati su campioni", ha affermato Csensics.  Il sistema di nuova concezione è progettato per essere montato su una piattaforma di tracciamento posizionata su un braccio robotico e ciò consente misurazioni 3D senza contatto di forme e superfici arbitrarie. Con un peso di 300 grammi e una dimensione di 75 X 63 X 55 millimetri cubi, il sistema è straordinariamente piccolo. "Il nostro sistema è in grado di misurare topografie di superfici 3D con una c...
Continua a Leggere

Come funziona la visione artificiale e perché è afflitta da pregiudizi 

  Non è un segreto che l' IA sia ovunque, ma non è sempre chiaro quando interagiamo con essa, figuriamoci quali tecniche specifiche sono in gioco. Ma un sottoinsieme è facile da riconoscere: se l'esperienza è intelligente e coinvolge foto o video, o è visiva in qualche modo, è probabile che la visione artificiale funzioni dietro le quinte. La visione artificiale è un sottocampo dell'intelligenza artificiale, in particolare dell'apprendimento automatico. Se l'intelligenza artificiale consente alle macchine di "pensare", allora la visione artificiale è ciò che consente loro di "vedere". Più tecnicamente, consente alle macchine di riconoscere, dare un senso e rispondere a informazioni visive come foto, video e altri input visivi.  Negli ultimi anni, la visione artificiale è diventata uno dei principali motori dell'intelligenza artificiale. La tecnica è ampiamente utilizzata in settori come la produzione, l'e-commerce, l'agricoltura, l'automotive e la medicina, solo per citarne alcuni. Supporta qualsiasi cosa, dagli obiettivi Snapchat interattivi alle trasmissioni sportive, agli acquisti basati su AR, all'analisi medica e alle capacità di guida autonoma. E entro il 2022, si prevede che il mercato globale del sottocampo raggiungerà i 48,6 miliardi di dollari all'anno, rispetto ai soli 6,6 miliardi di dollari del 2015. La storia della visione artificiale segue quella dell'IA in generale. Una lenta ascesa piena di ostacoli tecnici. Un grande boom reso possibile da enormi quantità di dati. Proliferazione rapida. E poi cresce la preoccupazione per i pregiudizi e per il modo in cui viene utilizzata la tecnologia. Per comprendere la visione artificiale, è importante capire come funziona, come viene utilizzata e sia le sfide che ha superato sia quelle che deve ancora affrontare oggi. Come funziona la visione artificialeLa visione artificiale consente ai computer di svolgere una varietà di compiti. C'è la segmentazione dell'immagine (divide un'immagine in parti e le esamina indi...
Continua a Leggere

SofGAN: un generatore di volti GAN che offre un maggiore controllo

Ricercatori a Shanghai e negli Stati Uniti hanno sviluppato un sistema di generazione di ritratti basato su GAN che consente agli utenti di creare volti nuovi con un livello di controllo finora non disponibile su aspetti individuali come capelli, occhi, occhiali, trame e colore. Per dimostrare la versatilità del sistema, i creatori hanno fornito un'interfaccia in stile Photoshop in cui un utente può disegnare direttamente elementi di segmentazione semantica che verranno reinterpretati in immagini realistiche e che possono anche essere ottenuti disegnando direttamente su fotografie esistenti. Nell'esempio seguente, un'immagine dell'attore Daniel Radcliffe viene utilizzata come modello di tracciamento (e l'obiettivo non è quello di produrre una sua somiglianza, ma piuttosto un'immagine generalmente fotorealistica). Man mano che l'utente inserisce vari elementi, inclusi aspetti discreti come gli occhiali, questi vengono identificati e interpretati nell'immagine del disegno di output:  Il documento si intitola SofGAN: A Portrait Image Generator with Dynamic Styling ed è guidato da Anpei Chen e Ruiyang Liu, insieme ad altri due ricercatori della ShanghaiTech University e un altro dell'Università della California a San Diego. Caratteristiche districanteIl contributo principale del lavoro non è tanto nel fornire una UX user-friendly, ma piuttosto nel "districare" le caratteristiche delle caratteristiche facciali apprese, come la posa e la trama, che consente a SofGAN di generare anche volti che sono ad angoli indiretti rispetto al punto di vista della telecamera.  Poiché le trame sono ora separate dalla geometria, anche la forma del viso e la trama possono essere manipolate come entità separate. In effetti, ciò consente il cambio di razza di un volto di origine, una pratica scandalosa che ora ha un'applicazione potenzialmente utile, per la creazione di set di dati di apprendimento automatico bilanciati dal punto di vista razziale . https://youtu.be/xig8ZA3DVZ8   SofGAN sup...
Continua a Leggere

DeepFaceLive come funziona

Streaming DeepFake in tempo reale con DeepFaceLive  Il software deepfake più utilizzato al mondo, e quello più fortemente associato al porno deepfake, sta ottenendo una nuova implementazione: la capacità di sovrapporre deepfake di una celebrità alle riprese della webcam dal vivo. Il repository open source DeepFaceLive è un'applicazione Windows 10 costruita sulle basi di DeepFaceLab , che è diventata rapidamente la principale risorsa per lo scambio di volti basato sul porno dopo che il creatore del software deepfake originale ha abbandonato il progetto poco dopo l'avvento del deepfaking ha creato polemiche in tutto il mondo nel 2018. Entrambi i progetti elencano la sezione forum del sito porno deepfake mrdeepfakes come risorsa di supporto ufficiale. In un video dell'interfaccia DeepFaceLive rilasciato dallo sviluppatore Ivan Petrov ad aprile, vediamo il filmato scaricato dell'imitatore Miles Fisher che viene trasformato in Tom Cruise in tempo reale. Fonte: https://martinanderson.substack.com/p/real-time-deepfake-streaming-is-apparentlyIeri il leader di entrambi i progetti, lo sviluppatore russo Ivan Petrov , ha annunciato una nuova versione di DeepFaceLive sul gruppo Discord del progetto, osservando che DeepFaceLive ora incorpora un modello addestrato dell'attrice Margot Robbie, un soggetto frequente di video pornografici su mrdeepfakes. Sono stati caricati quattro video clip di esempio per dimostrare la capacità di DeepFaceLive di collegare l'identità di Robbie a qualsiasi oratore in un feed della webcam. https://youtu.be/0TcCKtObSnI I video di trasformazione di Robbie sono stati originariamente condivisi su Twitch, ma successivamente eliminati. Gli altri tre esempi di facewapping forniti da DeepFaceLive. Il requisito per una corrispondenza approssimativa del viso con il soggetto bersaglio è ancora in evidenza. Nell'immagine in basso a sinistra vediamo che il software non può mascherare efficacemente gli ostacoli, come può essere ottenuto in DeepFaceLab, poiché ciò ...
Continua a Leggere

BRIMA strumento di annotazione delle immagini basato su browser per set di dati di visione artificiale 

Uno strumento di annotazione delle immagini basato su browser per set di dati di visione artificiale  I ricercatori finlandesi hanno sviluppato uno strumento di etichettatura delle immagini basato su browser destinato a migliorare la facilità e la velocità dei noiosi processi di annotazione delle immagini per i set di dati di visione artificiale. Installato come estensione indipendente dal sistema operativo per i motori di browser più diffusi, il nuovo strumento consente agli utenti di "annotare durante la navigazione libera", piuttosto che dover inserire una sessione di etichettatura nel contesto di una configurazione dedicata o eseguire client codice laterale e altre circostanze speciali. Intitolato BRIMA (Low-Overhead BRowser-only IMage Annotation tool), il sistema è stato sviluppato presso l'Università di Jyväskylä. Elimina la necessità di raschiare e compilare set di dati in directory locali o remote e può essere configurato per ricavare dati utili dai vari parametri di dati disponibili su qualsiasi piattaforma pubblica.  In questo modo BRIMA (che sarà presentato a ICIP 2021 , quando sarà reso disponibile anche il codice ) ovvia ai potenziali ostacoli che possono sorgere quando i sistemi automatizzati di web-scraping vengono bloccati tramite range IP o altri metodi, e impedita la raccolta dei dati – uno scenario destinato a diventare più comune man mano che la protezione IP diventa sempre più importante, come ha recentemente fatto con lo strumento di generazione di codice basato sull'intelligenza artificiale di Microsoft, Copilot. Poiché BRIMA è destinato esclusivamente all'annotazione basata sull'uomo, è anche meno probabile che il suo utilizzo attivi altri tipi di blocchi stradali, come le sfide CAPTCHA o altri sistemi automatizzati destinati a bloccare gli algoritmi di raccolta dei dati. Capacità adattive di raccolta datiBRIMA è implementato tramite un componente aggiuntivo di Firefox o un'estensione di Chrome su Windows, OSX o Linux e può essere configurato...
Continua a Leggere
Top

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi