Il sistema ML di Quora è un atto di classe
Esistono diversi algoritmi di apprendimento automatico in esecuzione dietro le quinte che hanno aiutato Quora a mantenere la sua posizione come uno dei siti Web più popolari anche dopo un decennio dal suo lancio.
 
Hai mai notato che ogni volta che esegui una ricerca su Google, i risultati, il più delle volte, generano collegamenti da Quora? Fondato nel 2009 come sito Web di domande e risposte da Adam D’Angelo e Charlie Cheever , Quora è stato reso disponibile al pubblico nel 2010. Questo sito Web consente agli utenti di porre e rispondere a domande e persino di votare/commentare le risposte fornite da altri utenti. Nel 2020, il sito Web ha registrato 300 milioni di visitatori unici al sito Web e si annovera tra i primi 20 siti Web. Gli argomenti più cercati sono stati tecnologia, film, salute, cibo e scienza.

Esistono diversi algoritmi di apprendimento automatico in esecuzione dietro le quinte che hanno aiutato Quora a mantenere la sua posizione come uno dei siti Web più popolari anche dopo un decennio dal suo lancio. 

 
Classifica domande e risposte
Ogni utente di Quora che cerca informazioni su un particolare argomento lo fa inserendo la propria domanda o un “bisogno di informazioni”. Gli algoritmi di apprendimento automatico conducono un processo di comprensione delle domande in cui le informazioni esatte che vengono ricercate vengono estratte dalla domanda. Il passaggio successivo consiste nell’identificare le “domande di qualità”, che viene eseguita attraverso la classificazione della qualità delle domande che aiuta a distinguere tra domande di alta e bassa qualità. 

In questa fase, gli algoritmi determinano anche diversi tipi di domande. Una volta classificate le domande, il passaggio prevede l’etichettatura dell’argomento della domanda, in cui il modello determina il segmento/argomento in cui la domanda deve essere elencata. Qui l’analisi si basa sui dati che descrivono le azioni che “Quoran” intraprende sulla piattaforma. Per facilitare l’ analisi , Quora si basa su una relazione schematica tra utenti, domande e argomenti. A differenza della maggior parte delle applicazioni di modellazione di argomenti che trattano documenti di testo di grandi dimensioni e un’ontologia di argomenti più piccoli, gli algoritmi di Quora funzionano con brevi testi di domande e “più di un milione di potenziali argomenti” su cui taggare la domanda.

 

Quando si tratta di risposte, Quora ha un algoritmo proprietario che le classifica. È modellato in modo simile al “PageRank” di Google, che conta il numero e la qualità dei collegamenti a una determinata pagina per determinare l’importanza del sito Web. La convinzione di fondo è che è più probabile che i siti Web importanti abbiano backlink da altri siti Web. Allo stesso modo, Quora classifica le risposte in base a quanto sono utili. La parte “utile” è soggetta a fattori come voti positivi e negativi sulla risposta; risposte precedenti scritte dall’autore; se l’autore è un esperto in materia; tipo e qualità dei contenuti, tra gli altri.

Quora esamina due casi specifici di classificazione degli algoritmi di machine learning: ricerca e ranking personalizzato . Nel caso del ranking di ricerca, per prima cosa, vengono restituite le domande che corrispondono alla query; quindi, tali documenti vengono classificati in base alla probabilità di un clic. Nel caso della classifica personalizzata, Quora tenta di selezionare e classificare la risposta più “interessante” in base al modello di utilizzo dell’utente misurato dal suo profilo.

Quora utilizza una combinazione di interesse sia delle risposte che delle domande. Le azioni imminenti vengono considerate e aggregate in diverse finestre temporali e alimentate all’algoritmo di ranking. Quora continua a sperimentare con il modello di feed personalizzato.

Un’altra considerazione importante per Quora quando si tratta di alimentare le applicazioni di ranking è che deve rispondere a fattori come le azioni degli utenti, le impressioni e gli eventi di tendenza. La sfida qui è che c’è una raccolta crescente di domande e risposte che potrebbe non essere possibile classificare in tempo reale per ogni utente. Per ottimizzare l’esperienza dell’utente, Quora implementa un algoritmo di classificazione in più fasi in cui i candidati vengono classificati anche prima che venga effettivamente eseguita la classifica finale.

Mantenere la qualità
Una delle considerazioni principali nelle discussioni sull’esperienza di qualità su Quora è quella di filtrare i contenuti duplicati. A tal fine, il team ML di Quora rileva diverse domande che hanno lo stesso intento e le unisce in un’unica domanda canonica. Una delle tecniche utilizzate è un modello di foresta casuale con caratteristiche come la somiglianza del coseno dell’incorporamento medio di token word2ved, parole comuni, parte dei tag vocali delle parole e argomenti comuni etichettati sulle domande. Oltre a ciò, Quora ha anche diversi sistemi di apprendimento automatico e le loro combinazioni per affrontare i contenuti di spam. Inoltre, gli algoritmi di apprendimento automatico insieme ai moderatori umani aiutano a identificare contenuti offensivi, offensivi e offensivi sulla piattaforma.

Fino al 2016, la piattaforma era priva di pubblicità. Secondo Nikhil Dandekar , ex Engineering Manager di Quora, la piattaforma utilizza la previsione del CTR pubblicitario per assicurarsi che gli annunci mostrati siano pertinenti per gli utenti e offrano un buon rapporto qualità-prezzo anche per gli inserzionisti.

Nel complesso, i principali algoritmi di apprendimento automatico utilizzati da Quora includono, a titolo esemplificativo, Regressione logistica, Reti elastiche, Alberi decisionali potenziati con gradiente, Foreste casuali, Reti neurali, LambdaMART, Fattorizzazione della matrice, Modelli vettoriali e molte altre tecniche NLP.

Di ihal