Come l’IA sta cambiando la fotografia
I più recenti progressi delle fotocamere provengono dall’IA, non dai sensori e dagli obiettivi
Se ti stai chiedendo quanto sarà buona la fotocamera del tuo prossimo telefono, sarebbe saggio prestare attenzione a ciò che il produttore ha da dire sull’IA. Al di là del clamore e della follia, la tecnologia ha permesso di avanzare sconcertanti progressi nella fotografia negli ultimi due anni, e non c’è motivo di pensare che i progressi rallenteranno.
Ci sono ancora un sacco di trucchetti in giro, per essere sicuri. Ma i progressi più impressionanti della fotografia sono avvenuti a livello di software e silicio piuttosto che a livello del sensore o dell’obiettivo – e ciò è dovuto in gran parte all’IA che offre alle fotocamere una migliore comprensione di ciò che stanno guardando.
Google Foto ha fornito una chiara dimostrazione di quanto sia potente un mix di intelligenza artificiale e fotografia quando l’app è stata lanciata nel 2015. Prima di allora, il gigante della ricerca aveva utilizzato l’apprendimento automatico per categorizzare le immagini in Google+ per anni, ma il lancio della sua app Foto includeva funzionalità di IA orientate al consumatore che sarebbero state inimmaginabili per la maggior parte. Le librerie disorganizzate degli utenti di migliaia di foto senza tag sono state trasformate in database ricercabili durante la notte.
All’improvviso, o così sembrava, Google sapeva che aspetto aveva il tuo gatto.
Google ha costruito il precedente lavoro di un’acquisizione del 2013, DNNresearch, creando una rete neurale profonda addestrata su dati che erano stati etichettati dagli umani. Questo è chiamato apprendimento supervisionato; il processo prevede l’addestramento della rete su milioni di immagini in modo che possa cercare indizi visivi a livello di pixel per aiutare a identificare la categoria. Nel tempo, l’algoritmo ottiene sempre meglio il riconoscimento, ad esempio, di un panda, poiché contiene gli schemi utilizzati per identificare correttamente i panda in passato. Impara dove la pelliccia nera e la pelliccia bianca tendono ad essere in relazione l’una con l’altra, e come si differenzia dalla pelle di una mucca Holstein, per esempio. Con l’ulteriore formazione, diventa possibile cercare termini più astratti come “animale” o “colazione”, che potrebbero non avere indicatori visivi comuni, ma sono ancora immediatamente evidenti agli umani.
Ci vuole un sacco di tempo e potenza di elaborazione per addestrare un algoritmo come questo, ma dopo che i data center hanno fatto le loro cose, può essere eseguito su dispositivi mobili a bassa potenza senza molti problemi. Il lavoro di sollevamento pesante è già stato fatto, quindi una volta caricate le foto sul cloud, Google può utilizzare il modello per analizzare ed etichettare l’intera libreria. Circa un anno dopo il lancio di Google Foto, Apple annunciò una funzione di ricerca di foto che era stata addestrata in modo simile su una rete neurale, ma come parte dell’impegno dell’azienda verso la privacy, la categorizzazione effettiva viene eseguita separatamente sul processore di ciascun dispositivo senza inviare i dati. Questo di solito richiede un giorno o due e si verifica in background dopo l’installazione.
Il software di gestione fotografica intelligente è una cosa, ma l’intelligenza artificiale e l’apprendimento automatico hanno probabilmente un impatto maggiore sul modo in cui le immagini vengono catturate in primo luogo. Sì, le lenti continuano a diventare un po ‘più veloci ei sensori possono sempre diventare un po’ più grandi, ma stiamo già spingendo verso i limiti della fisica quando si tratta di stipare sistemi ottici in dispositivi mobili sottili. Tuttavia, non è raro che oggigiorno i telefoni scattino foto migliori in alcune situazioni rispetto a un sacco di attrezzatura fotografica dedicata, almeno prima della post-elaborazione. Questo perché le telecamere tradizionali non possono competere su un’altra categoria di hardware altrettanto profonda per la fotografia: i sistemi su chip che contengono una CPU, un processore di segnali di immagine e, sempre più, un’unità di elaborazione neurale (NPU) .
Questo è l’hardware sfruttato in quella che viene definita la fotografia computazionale, un termine ampio che copre tutto, dai falsi effetti di profondità di campo nelle modalità di ritratto dei telefoni agli algoritmi che aiutano a guidare l’incredibile qualità delle immagini di Google Pixel. Non tutta la fotografia computazionale coinvolge l’intelligenza artificiale, ma l’intelligenza artificiale è certamente una componente importante di esso.
Apple fa uso di questa tecnologia per guidare la modalità verticale dei suoi telefoni a doppia fotocamera. Il processore di segnali d’immagine dell’iPhone utilizza tecniche di apprendimento automatico per riconoscere le persone con una videocamera, mentre la seconda consente di creare una mappa di profondità per isolare il soggetto e sfocare lo sfondo. La capacità di riconoscere le persone attraverso l’apprendimento automatico non era nuova quando questa funzione ha debuttato nel 2016, poiché era ciò che il software di organizzazione delle foto stava già facendo. Ma gestirlo in tempo reale alla velocità necessaria per una fotocamera per smartphone è stata una svolta.
Google rimane l’ovvio leader in questo campo, tuttavia, con i superbi risultati prodotti da tutte e tre le generazioni di Pixel come prova più convincente. HDR +, la modalità di scatto predefinita, utilizza un algoritmo complesso che unisce diversi fotogrammi sottoesposti in uno e, come ha notato Marc Levoy in The Verge , l’apprendimento automatico significa che il sistema migliora solo con il tempo. Google ha addestrato la sua intelligenza artificiale su un enorme set di dati di foto etichettate, come con il software Google Foto, e ciò aiuta ulteriormente la fotocamera ad essere esposta. Il Pixel 2, in particolare, ha prodotto un livello impressionante di qualità dell’immagine di base che alcuni di noi di The Verge sono stati più che a proprio agio nell’utilizzarlo per il lavoro professionale su questo sito.
GOOGLE’S NIGHT SIGHT È UNA STRAORDINARIA PUBBLICITÀ PER IL RUOLO DEL SOFTWARE NELLA FOTOGRAFIA
Ma il vantaggio di Google non è mai sembrato così forte come un paio di mesi fa con il lancio di Night Sight. La nuova funzione Pixel consente di unire insieme lunghe esposizioni e utilizza un algoritmo di apprendimento automatico per calcolare il bilanciamento del bianco più accurato e i colori, con risultati francamente stupefacenti. La funzione funziona meglio su Pixel 3, perché gli algoritmi sono stati progettati tenendo presente l’hardware più recente, ma Google lo ha reso disponibile per tutti i telefoni Pixel – anche l’originale, che non ha stabilizzazione ottica dell’immagine – ed è una pubblicità sbalorditiva per come il software è ora più importante dell’hardware della videocamera quando si tratta di fotografia mobile.
Detto questo, c’è ancora spazio per l’hardware per fare la differenza, in particolare quando è supportato da AI. Il nuovo telefono View 20 di Honor , insieme alla casa madre Huawei Nova 4, è il primo ad utilizzare il sensore di immagine IMX586 di Sony. È un sensore più grande della maggior parte dei concorrenti e, a 48 megapixel, rappresenta la più alta risoluzione mai vista su qualsiasi telefono. Ma questo significa comunque riempire un sacco di minuscoli pixel in uno spazio minuscolo, che tende ad essere problematico per la qualità dell’immagine. Nei miei test View 20, tuttavia, la modalità “AI Ultra Clarity” di Honor eccelle nell’ottenere la maggior parte della risoluzione, decodificando il filtro a colori insolito del sensore per sbloccare ulteriori dettagli. Ciò si traduce in enormi fotografie che è possibile ingrandire per giorni.
I processori del segnale di immagine sono stati importanti per le prestazioni della fotocamera del telefono per un po ‘, ma sembra probabile che le NPU assumeranno un ruolo più importante come progressi della fotografia computazionale. Huawei è stata la prima azienda ad annunciare un system-on-chip con hardware AI dedicato, il Kirin 970, anche se A11 Bionic di Apple ha finito per raggiungere i consumatori prima. Qualcomm, il più grande fornitore di processori Android in tutto il mondo, non ha ancora focalizzato l’apprendimento automatico, ma Google ha sviluppato un proprio chip chiamato Pixel Visual Core per aiutare con le attività di imaging relative all’IA. L’ultima Apple A12 Bionic, nel frattempo, ha un motore neurale a otto core in grado di eseguire attività in Core ML, il framework di apprendimento automatico di Apple, fino a nove volte più veloce dell’A11, e per la prima volta è direttamente collegato al processore di immagini. Apple afferma che questo fornisce alla fotocamera una migliore comprensione del piano focale, ad esempio, aiutando a generare una profondità di campo più realistica.
LA FOTOCAMERA È UNA CARATTERISTICA ESSENZIALE DI QUALSIASI TELEFONO E L’INTELLIGENZA ARTIFICIALE È LA SOLUZIONE MIGLIORE PER MIGLIORARLA
Questo tipo di hardware sarà sempre più importante per un apprendimento macchina efficiente e performante, che ha un tetto eccezionalmente alto in termini di richieste sul processore. Ricorda, il tipo di algoritmi che potenziano Google Foto sono stati addestrati su computer enormi e potenti con GPU muscolose e nuclei tensoriali prima di essere rilasciati nella tua libreria di foto. Gran parte di questo lavoro può essere fatto “in anticipo”, per così dire, ma la capacità di eseguire calcoli di apprendimento automatico su un dispositivo mobile in tempo reale rimane all’avanguardia.
Google ha mostrato un lavoro impressionante che potrebbe ridurre il carico di elaborazione, mentre i motori neurali stanno diventando più veloci entro l’anno. Ma anche in questa fase iniziale della fotografia computazionale, ci sono dei veri benefici dalle telecamere del telefono che sono state progettate attorno all’apprendimento automatico. Di fatto, tra tutte le possibilità e le applicazioni sollevate dall’onda dell’hype di AI degli ultimi anni, l’area con l’uso più pratico oggi è probabilmente la fotografia. La fotocamera è una caratteristica essenziale di qualsiasi telefono e l’intelligenza artificiale è la soluzione migliore per migliorarla.