Sommario
Quali sono alcuni esempi di algoritmi di clustering?
Come vengono utilizzati gli algoritmi di clustering in applicazioni specifiche?
In che modo le grandi aziende si stanno avvicinando al clustering AI?
In che modo gli sfidanti e le startup gestiscono il clustering AI?
C’è qualcosa che il clustering AI non può fare?
Il clustering AI è il processo di machine learning (ML) di organizzazione dei dati in sottogruppi con attributi o elementi simili. Gli algoritmi di clustering tendono a funzionare bene in ambienti in cui la risposta non deve essere perfetta, deve solo essere simile o vicina per essere una corrispondenza accettabile. Il clustering AI può essere particolarmente efficace nell’identificare modelli nell’apprendimento non supervisionato . Alcune applicazioni comuni sono nelle risorse umane, nell’analisi dei dati, nei sistemi di raccomandazione e nelle scienze sociali. 

Scienziati di dati, statistici e scienziati di intelligenza artificiale utilizzano algoritmi di clustering per cercare risposte vicine ad altre risposte. Utilizzano innanzitutto un set di dati di addestramento per definire il problema e quindi cercano potenziali soluzioni simili a quelle generate con i dati di addestramento.

 
Accelerare la trasformazione e sbloccare il tuo talento con lo sviluppo dei cittadini – Summit Low-Code/No-Code
Una sfida è definire la “vicinanza”, perché la risposta desiderata viene solitamente generata con i dati di addestramento. Quando i dati hanno diverse dimensioni, i data scientist possono anche guidare l’algoritmo assegnando pesi alle diverse colonne di dati nell’equazione utilizzata per definire la vicinanza. Non è raro lavorare con diverse funzioni che definiscono la vicinanza. 

Quando viene definita la funzione di prossimità, chiamata anche metrica di somiglianza o misura della distanza, gran parte del lavoro consiste nell’archiviare i dati in modo che possano essere cercati rapidamente. Alcuni progettisti di database creano livelli speciali per semplificare tale ricerca. Una parte fondamentale di molti algoritmi è la metrica della distanza che definisce la distanza tra due punti dati. 

 

Un altro approccio consiste nel capovolgere il problema e cercare deliberatamente la peggiore corrispondenza possibile. Questo è adatto a problemi come il rilevamento di anomalie nelle applicazioni di sicurezza, in cui l’obiettivo è identificare elementi di dati che non si adattano agli altri.

Quali sono alcuni esempi di algoritmi di clustering?
 
Scienziati e matematici hanno creato diversi algoritmi per rilevare vari tipi di cluster. Scegliere la soluzione giusta per un problema specifico è una sfida comune.

Gli algoritmi non sono sempre definitivi. Gli scienziati possono utilizzare metodi che rientrano in una sola classificazione o potrebbero impiegare algoritmi ibridi che utilizzano tecniche di più categorie. 

Le categorie di algoritmi di clustering includono quanto segue:

 
Bottom-up : questi algoritmi, noti anche come agglomeranti o gerarchici, iniziano accoppiando ciascun elemento di dati con il suo vicino più vicino. Quindi le coppie sono, a loro volta, appaiate. I cluster crescono e l’algoritmo continua finché non viene raggiunta una soglia sul numero di cluster o sulla distanza tra di essi. 
Divisivo : questi algoritmi sono come il bottom-up o l’agglomerativo, ma iniziano con tutti i punti in un cluster e poi cercano un modo per dividerli in due cluster più piccoli. Questo spesso significa cercare un piano o un’altra funzione che divida nettamente l’ammasso in parti separate. 
K-significa : questo approccio popolare cerca k cluster diversi assegnando prima i punti in modo casuale a k gruppi diversi. Viene calcolata la media di ogni cluster e poi ogni punto viene esaminato per vedere se è più vicino alla media del suo cluster. In caso contrario, viene spostato in un altro. Le medie vengono ricalcolate ei risultati convergono dopo diverse iterazioni. 
K-medoidi : è simile al k-medio, ma il centro viene calcolato utilizzando un algoritmo mediano. 
Fuzzy : ogni punto può essere un membro di più cluster calcolati utilizzando qualsiasi tipo di algoritmo. Questo può essere utile quando alcuni punti sono equidistanti da ciascun centro. 
Griglia : gli algoritmi iniziano con una griglia predefinita dagli scienziati per suddividere lo spazio dei dati in parti. I punti vengono assegnati ai cluster in base al blocco della griglia a cui si adattano. 
Wave : I punti vengono prima compressi o trasformati con una funzione chiamata wavelet. L’algoritmo di clustering viene quindi applicato utilizzando la versione compressa o trasformata dei dati, non quella originale. 
Nota: molte società di database usano spesso la parola “clustering” in modo diverso. La parola può anche essere usata per descrivere un gruppo di macchine che lavorano insieme per memorizzare dati e rispondere a domande. In tale contesto, gli algoritmi di clustering prendono decisioni su quali macchine gestiranno il carico di lavoro. Per rendere le cose più confuse, a volte questi sistemi di dati applicano anche algoritmi di clustering AI per classificare gli elementi di dati. 

Come vengono utilizzati gli algoritmi di clustering in applicazioni specifiche?
Gli algoritmi di clustering vengono implementati come parte di un’ampia gamma di tecnologie. I data scientist si affidano agli algoritmi per aiutare con la classificazione e l’ordinamento. 

 
Ad esempio, un gran numero di applicazioni per lavorare con le persone può avere più successo con migliori algoritmi di clustering . Le scuole potrebbero voler collocare gli studenti in sezioni di classe in base ai loro talenti e abilità. Gli algoritmi di clustering metteranno insieme studenti con interessi e bisogni simili.

Alcune aziende vogliono separare i loro potenziali clienti in diverse categorie in modo che possano offrire ai clienti un servizio più appropriato. Agli acquirenti neofiti può essere offerto un ampio aiuto in modo che possano comprendere i prodotti e le opzioni. I clienti esperti possono essere portati immediatamente alle offerte e forse ricevere prezzi speciali che hanno funzionato per acquirenti simili. 

Ci sono molti altri esempi da una vasta gamma di settori, come la produzione, le banche e le spedizioni. Tutti si affidano agli algoritmi per separare il carico di lavoro in sottoinsiemi più piccoli che possono ottenere un trattamento simile. Tutte queste opzioni dipendono fortemente dalla raccolta dei dati. 

 
In che modo le metriche della distanza definiscono gli algoritmi di clustering? Se un cluster è definito dalle distanze tra gli elementi di dati, la misurazione della distanza è una parte essenziale del processo. Molti algoritmi si basano su metodi standard per calcolare la distanza, ma alcuni si basano su formule diverse con vantaggi diversi. 

Molti trovano confusa l’idea stessa di una “distanza”. Usiamo il termine così spesso per misurare la distanza che dobbiamo percorrere in una stanza o in giro per il mondo che può sembrare strano considerare due punti dati – come descrivere le preferenze di un utente per il gelato o il colore della vernice – come separati da qualsiasi distanza. Ma la parola è un modo naturale per descrivere un numero che misura quanto gli elementi possono essere vicini l’uno all’altro. 

Scienziati e matematici generalmente si affidano a formule che soddisfano quella che chiamano la “disuguaglianza triangolare”. Cioè, la distanza tra i punti A e B più la distanza tra B e C è maggiore o uguale alla distanza tra A e C. Quando la formula lo garantisce, il processo acquista maggiore consistenza. Alcuni si affidano anche a definizioni più rigorose come “ultrametria” che offrono garanzie più complesse. Gli algoritmi di clustering, in senso stretto, non hanno bisogno di insistere su questa regola perché qualsiasi formula che restituisca un numero potrebbe andar bene, ma i risultati sono generalmente migliori. 

  
In che modo le grandi aziende si stanno avvicinando al clustering AI?
Le statistiche, la scienza dei dati e i servizi di intelligenza artificiale offerti dai principali fornitori di tecnologia includono molti degli algoritmi di clustering più comuni. Gli algoritmi sono implementati nei linguaggi che costituiscono la base di molte di queste piattaforme, che spesso è Python. I fornitori includono:

SageMaker: la soluzione chiavi in ​​mano di Amazon per la creazione di modelli di intelligenza artificiale supporta una serie di approcci, come il clustering K-mean . Questi possono essere testati nei notebook e distribuiti dopo che il software ha creato il modello. 
Google include una varietà di algoritmi di clustering che possono essere implementati, inclusi algoritmi basati sulla densità, basati sul centroide e gerarchici. Il loro Colaboratory offre una buona opportunità per esplorare il potenziale prima di implementare un algoritmo.
Gli strumenti Azure di Microsoft , come il suo designer di Machine Learning , offrono tutti i principali algoritmi di clustering in una forma aperta alla sperimentazione. I suoi sistemi mirano a gestire molti dei dettagli di configurazione per la creazione di una pipeline che trasforma i dati in modelli. 
IBM offre il clustering sia nella sua scienza dei dati che nei suoi strumenti di intelligenza artificiale. Entrambi implementano i principali algoritmi e forniscono strumenti come Cloud Pak for Data o Watson Studio . 
Oracle offre anche la tecnologia di clustering in tutte le sue applicazioni di AI e data science. Ha anche integrato algoritmi nel suo database di punta in modo che i cluster possano essere creati all’interno dell’archivio dati senza esportarli. 
 
In che modo gli sfidanti e le startup gestiscono il clustering AI?
Specialisti di dati affermati e una serie di startup stanno sfidando i principali fornitori offrendo algoritmi di clustering come parte di pacchetti di analisi dei dati più ampi e strumenti di intelligenza artificiale. 

Teradata , Snowflake e Databricks sono aziende leader di nicchia focalizzate sull’aiutare le aziende a gestire i flussi di dati spesso inarrestabili costruendo data lake o data warehouse . I loro strumenti di apprendimento automatico supportano alcuni degli algoritmi di clustering standard in modo che gli analisti dei dati possano iniziare il lavoro di classificazione non appena i dati entrano nel sistema. 

 
Startup come la società cinese Zilliz , con il suo database vettoriale open source Milvus, e Pinecone , con il suo database vettoriale SaaS, stanno guadagnando terreno come modi efficienti per cercare corrispondenze che possono essere molto utili nelle applicazioni di clustering. 

Alcuni stanno anche raggruppando algoritmi con strumenti focalizzati su particolari segmenti verticali. Pre-sintonizzano i modelli e gli algoritmi per funzionare bene con il tipo di problemi comuni in quel segmento. Zest.ai e Affirm sono due esempi di startup che stanno costruendo modelli per guidare il prestito. Non vendono algoritmi direttamente ma si affidano alle decisioni degli algoritmi per guidare il loro prodotto.

Numerose aziende utilizzano algoritmi di clustering per segmentare i propri clienti e fornire soluzioni più dirette e personalizzate. You.com è una società di motori di ricerca che si basa su algoritmi personalizzati per fornire agli utenti consigli personalizzati e risultati di ricerca. Observe AI mira a migliorare i call center aiutando le aziende a riconoscere le opportunità nell’offrire opzioni più personalizzate. 

 
C’è qualcosa che il clustering AI non può fare?
Come per tutte le IA, il successo degli algoritmi di clustering dipende spesso dalla qualità e dall’idoneità dei dati utilizzati. Se i numeri producono cluster stretti con grandi lacune intermedie, l’algoritmo di clustering li troverà e li utilizzerà per classificare nuovi dati con relativo successo.

I problemi si verificano quando non ci sono cluster stretti o gli elementi di dati finiscono in qualche spazio in cui sono relativamente equidistanti tra i cluster. Le soluzioni sono spesso insoddisfacenti perché non esiste un modo semplice per scegliere un cluster piuttosto che un altro. Uno potrebbe essere leggermente più vicino in base alla metrica della distanza, ma potrebbe non essere la risposta che le persone vogliono. 

 
In molti casi, gli algoritmi non sono abbastanza intelligenti o abbastanza flessibili da accettare una risposta parziale o una che scelga più classificazioni. Mentre ci sono molti esempi del mondo reale di persone o cose che non possono essere facilmente classificate, gli algoritmi informatici hanno spesso un campo che può accettare solo una risposta. 

I problemi maggiori sorgono, tuttavia, quando i dati sono troppo sparsi e non ci sono cluster chiaramente definiti. Gli algoritmi possono ancora funzionare e generare risultati, ma le risposte sembreranno casuali e i risultati mancheranno di coesione. 

A volte è possibile migliorare i cluster o renderli più distinti regolando la metrica della distanza. L’aggiunta di pesi diversi per alcuni campi o l’utilizzo di una formula diversa può enfatizzare alcune parti dei dati abbastanza da rendere i cluster più chiaramente definiti. Ma se queste distinzioni sono artificiali, gli utenti potrebbero non essere soddisfatti dei risultati. 

 

Di ihal