Molti database sono pieni di informazioni accuratamente organizzate in righe e colonne. Il tipo e il ruolo di ciascuna parte sono predefiniti e spesso applicati da un software che controlla i dati prima e dopo che sono stati archiviati. Lo studio di queste tabelle per ottenere informazioni dettagliate è relativamente semplice e diretto per i data scientist.
Alcune origini dati, tuttavia, mancano di un ordine prevedibile, ma ciò non significa che non possano essere utili. La fonte più comune in questo senso sono testi di dati leggibili dall’uomo scritti in lingue umane. A parte le regole di base della grammatica e alcune convenzioni della narrazione e del giornalismo, esiste una struttura non poco ovvia che può essere utilizzata per dare un senso alle informazioni e trasformarle in dati solidi.
Altre potenziali fonti di informazioni non strutturate provengono dalla raccolta automatica, spesso dalla telemetria di dispositivi intelligenti. Il fiorente mondo dell’Internet delle cose (IoT) sta producendo petabyte di informazioni in gran parte non strutturate. Questi file possono avere un formato base con alcuni campi predefiniti per i timestamp, ma la lettura dei sensori spesso arriva in forma grezza con poca o nessuna classificazione o interpretazione.
Alcuni scienziati dell’intelligenza artificiale (AI) sono specializzati nel dare un senso a ciò che è noto come dati non strutturati. In un certo senso, tutti i file di dati sono dotati di una certa quantità di struttura o regole e la sfida è guardare oltre questa struttura per approfondimenti più approfonditi.
Come vengono analizzati i dati non strutturati?
Gli approcci sono in gran parte statistici. Gli algoritmi cercano modelli o relazioni tra le varie voci. Le stesse parole si trovano in genere nella stessa frase o paragrafo? Un certo valore di un sensore raggiunge un picco appena prima di un altro? Alcuni colori sono comuni in un’immagine?
Molti algoritmi moderni impongono un ulteriore livello di struttura di base all’origine dati, un processo spesso chiamato incorporamento dei dati o creazione di un incorporamento. Un testo, ad esempio, può essere ricercato per le 10.000 parole più comuni che non sono comuni in altri libri o fonti. Un’immagine può essere suddivisa in sezioni. Questa struttura approssimativa diventa la base per la successiva analisi statistica.
La creazione di questi incorporamenti è spesso tanto un’arte quanto una scienza. Gran parte del lavoro svolto dai data scientist implica la progettazione e il test di varie strategie per la creazione dell’incorporamento grezzo.
In molti casi, l’esperienza nel dominio può consentire a un essere umano di trasferire la propria comprensione dall’area all’algoritmo. Ad esempio, un medico può decidere che tutte le letture della pressione sanguigna al di sopra di un certo valore debbano essere classificate come “alte”. Un perito assicurativo può decidere che tutti i tamponamenti siano imputabili all’auto che segue. Queste regole danno struttura agli incorporamenti e ai dati per aiutarli a classificarli.
Quali sono gli obiettivi dell’IA non strutturata?
Gli obiettivi variano da dominio a dominio. Una richiesta comune consiste nel trovare elementi simili in un database. Un volto simile si trova in questa raccolta di fotografie? Questo testo è plagiato da un libro? C’è un’altra persona con un curriculum simile?
Altri cercano di fare previsioni per il futuro per aiutare un piano aziendale. Ciò potrebbe significare prevedere quante auto potrebbero essere vendute l’anno prossimo o in che modo le condizioni meteorologiche potrebbero influenzare la domanda. Questo lavoro è spesso molto più impegnativo rispetto alla ricerca di voci simili.
Alcuni funzionano esclusivamente per classificare i dati. I ricercatori della sicurezza, ad esempio, vogliono utilizzare l’IA per cercare anomalie nei file di registro che dovrebbero essere esaminati. I programmatori bancari, d’altra parte, potrebbero dover segnalare transazioni potenzialmente fraudolente o sospette a causa delle regole imposte dalle autorità di regolamentazione. Alcuni algoritmi di classificazione funzionano per codificare i dati in modo semplice. Inoltre, gli algoritmi di visione artificiale, ad esempio, possono guardare i volti e cercare di classificare se le persone sono felici, tristi, arrabbiate, preoccupate o una qualsiasi di un ampio insieme di emozioni .
Come funzionano alcune grandi aziende con i dati non strutturati?
Le principali società cloud hanno ampliato i propri servizi cloud per supportare la creazione di data lake da dati non strutturati. Tutti i fornitori offrono varie soluzioni di archiviazione strettamente associate ai loro vari servizi di intelligenza artificiale per trasformare i dati in informazioni significative.
Azure AI di Microsoft utilizza una combinazione di analisi del testo, riconoscimento ottico dei caratteri, riconoscimento vocale e visione artificiale per dare un senso a una raccolta non strutturata di file che possono essere testi o immagini. Il suo servizio di ricerca cognitiva creerà un indice linguistico dei dati per guidare la ricerca e trovare i documenti più rilevanti. Gli algoritmi di apprendimento automatico sono integrati con la tradizionale ricerca di testo per concentrarsi su termini significativi come nomi personali o frasi chiave. I suoi algoritmi di knowledge mining sono sintonizzabili dai data scientist per sbloccare studi più profondi dei dati. Il servizio di ricerca cognitiva è un prodotto in bundle, ma i vari algoritmi per l’apprendimento automatico e la ricerca sono disponibili anche in modo indipendente.
Google offre un’ampia gamma di strumenti per l’archiviazione dei dati e l’applicazione di vari algoritmi di intelligenza artificiale. Molti degli strumenti sono ideali per l’utilizzo di dati non strutturati. AutoML , ad esempio, è progettato per semplificare la costruzione di modelli di machine learning ed è integrato direttamente con una serie di opzioni di archiviazione dei dati di Google per abilitare i data lake. Vision AI può analizzare le immagini, decodificare il testo e persino classificare le emozioni delle persone nelle immagini. Il Cloud Natural Language può trovare passaggi chiave, parole specifiche del dominio e tradurre parole. Tutti sono venduti come prodotti cloud e fatturati in base all’utilizzo.
IBM supporta anche la creazione di data warehouse e data lake con strumenti per l’archiviazione e l’analisi dei dati che comprendono i principali algoritmi dell’analisi statistica e dell’intelligenza artificiale. Alcuni dei suoi prodotti raggruppano molte di queste opzioni in strumenti incentrati sulle attività. I team che cercano analisi predittive, ad esempio, potrebbero utilizzare il loro pacchetto SPSS Statistics insieme a Watson AI Studio per creare modelli per il comportamento futuro. Le tecnologie sono integrate con le opzioni di archiviazione di IBM come il database db2 e possono essere installate in locale o utilizzate nel cloud.
AWS supporta la creazione di data lake per dati non strutturati con una varietà di prodotti. Lo strumento Redshift dell’azienda , ad esempio, è in grado di cercare e analizzare i dati da una varietà di fonti dall’object storage S3 ai database SQL più strutturati. Semplifica il lavoro con architetture complesse con un’unica interfaccia. Amazon offre anche una varietà di servizi di machine learning , visione artificiale e intelligenza artificiale che funzioneranno con tutte le sue opzioni di archiviazione dei dati. Questi sono generalmente disponibili come istanze dedicate o talvolta come opzioni serverless che vengono fatturate solo quando utilizzate.
Oracle offre anche un’ampia gamma di strumenti di intelligenza artificiale. Oracle Cloud Infrastructure (OCI) for Language è ottimizzato per classificare il testo non strutturato cercando frasi ed entità importanti. Può rilevare le lingue, iniziare la traduzione e classificare il sentimento dello scrittore. Lo strumento di integrazione dei dati porta tutta la potenza dell’intelligenza artificiale in uno strumento privo di codice per l’analisi e il reporting dei dati. Una raccolta di modelli predefiniti può funzionare con linguaggi standard, mentre alcuni team potrebbero voler creare i propri modelli .
[Correlati: come padroneggiare il ciclo di vita dei dati per un’IA di successo ]
In che modo le startup prendono di mira i dati non strutturati?
Dare un senso ai dati non strutturati è l’obiettivo di molte startup specializzate in intelligenza artificiale, apprendimento automatico ed elaborazione del linguaggio naturale . Alcuni si concentrano sulla creazione di algoritmi migliori con una visione più approfondita e altri stanno creando modelli migliori che possono essere applicati direttamente ai problemi.
Il campo ha una naturale sovrapposizione con la scienza dei dati e l’analisi predittiva. Il processo di ricerca di informazioni dettagliate nel testo e nei dati visivi è un complemento naturale alla creazione di report e alla generazione di previsioni da dati più strutturati.
Alcune startup si concentrano sulla fornitura degli strumenti in modo che gli sviluppatori possano creare i propri modelli lavorando direttamente con i dati. Aziende come Squirro , TeX AI , RapidMiner , Indico , Dataiku , Alteryx e H2O AI sono solo alcune delle aziende che creano le basi per condurre esperimenti di intelligenza artificiale con i propri dati.
Un focus particolare è l’elaborazione del linguaggio naturale. Hugging Face ha creato una piattaforma in cui le aziende possono condividere i propri modelli con gli altri, un processo che incoraggia lo sviluppo di modelli sofisticati, più generali con ampia capacità.
La tecnologia di base sta anche creando strumenti che identificano nomi ed entità significative nel testo non strutturato. Il loro prodotto Rosette ricerca le relazioni tra le identità e crea mappe semantiche tra di loro.
Altri stanno commercializzando i propri modelli e rivendendoli direttamente. OpenAI sta creando un grande modello di linguaggio umano, GPT-3 e aprendo l’accesso tramite un’API, in modo che gli sviluppatori possano aggiungerne le funzionalità. È ideale per lavori come copywriting, classificazione del testo e riepilogo del testo. L’azienda sta anche costruendo una raccolta di riassunti di libri. GitHub , ad esempio, utilizza la tecnologia OpenAI nel loro strumento CoPilot che agisce come un assistente intelligente che aiuta i programmatori a scrivere più codice più velocemente.
Cohere AI sta anche costruendo il proprio modello e aprendolo tramite un’API. Alcuni sviluppatori stanno utilizzando il modello per classificare i documenti per progetti come il supporto per le controversie. Altri usano il modello per aiutare gli scrittori a trovare le parole giuste e creare documenti migliori.
Alcuni stanno concentrando i modelli del linguaggio naturale per aiutare con compiti specifici. Ad esempio, stai costruendo un nuovo motore di ricerca che offre un maggiore controllo agli utenti e allo stesso tempo fa affidamento su un’IA più intelligente per estrarre significato e trovare le risposte migliori. Altri stanno impacchettando approcci simili alle API per gli sviluppatori. ZIR e Algolia stanno costruendo un motore di ricerca collegabile con modelli semantici in grado di funzionare meglio della pura ricerca per parole chiave.
Un certo numero di startup vuole portare la potenza degli algoritmi a particolari settori o nicchie. Possono attingere a dati non strutturati come parte di una maggiore attenzione alla risoluzione di problemi chiari per il mercato di destinazione. Viz AI , ad esempio, sta creando un coordinatore assistenziale intelligente per monitorare i pazienti nelle varie fasi del recupero. Socure spera di migliorare la verifica dell’identità e il rilevamento delle frodi per le banche e altri settori che cercano di distinguere tra comportamento autentico e non autentico. Exceed AI sta creando assistenti alle vendite virtuali che aiutano i clienti a trovare risposte e prodotti.
Cosa non possono fare l’IA e i dati non strutturati
La più grande limitazione per gli algoritmi è la qualità di qualsiasi segnale nei dati. Occasionalmente, i dati, strutturati o non strutturati, non offrono molte correlazioni che possono portare a una risposta solida a una domanda particolare. Se non c’è una connessione significativa o c’è troppo rumore casuale, non ci sarà alcun segnale da identificare per gli algoritmi.
Questa sfida è più significativa per i dati non strutturati perché è più probabile che bit extra e inutili facciano parte delle informazioni. Sebbene gli algoritmi siano progettati per vagliare le informazioni ed escludere le parti inutili, ci sono ancora dei limiti al loro potere. Di solito c’è molto più rumore nei dati non strutturati .
Il problema è aggravato dal valore di trovare un segnale debole. Se un evento non si verifica molto frequentemente, rilevarlo potrebbe non produrre molto profitto. Anche quando gli algoritmi hanno successo, alcune analisi dei dati non strutturate non danno i loro frutti perché il successo è troppo raro.
Spesso, domande poco definite producono risultati ambigui. Alcuni si avvicinano ai dati non strutturati alla ricerca di approfondimenti, ma senza definizioni scritte chiaramente, le risposte potrebbero essere ugualmente ambigue. Una grande sfida per molti progetti non strutturati è semplicemente definire un obiettivo chiaro, in modo che i modelli possano essere addestrati in modo accurato .