Il sistema ML di Quora è un atto di classe
Esistono diversi algoritmi di apprendimento automatico in esecuzione dietro le quinte che hanno aiutato Quora a mantenere la sua posizione come uno dei siti Web più popolari anche dopo un decennio dal suo lancio.
Hai mai notato che ogni volta che fai una ricerca su Google, i risultati, il più delle volte, generano link da Quora? Fondato nel 2009 come sito Web di domande e risposte da Adam D’Angelo e Charlie Cheever , Quora è stato reso disponibile al pubblico nel 2010. Questo sito Web consente agli utenti di porre e rispondere a domande e persino votare/commentare le risposte fornite da altri utenti. A partire dal 2020, il sito Web ha registrato 300 milioni di visitatori unici sul sito Web e si annovera tra i primi 20 siti Web. Gli argomenti più ricercati sono stati tecnologia, film, salute, cibo e scienza.
Esistono diversi algoritmi di apprendimento automatico in esecuzione dietro le quinte che hanno aiutato Quora a mantenere la sua posizione come uno dei siti Web più popolari anche dopo un decennio dal suo lancio.
Classifica domande e risposte
Ogni utente di Quora che cerca informazioni su un particolare argomento lo fa inserendo la propria domanda o un “bisogno di informazioni”. Gli algoritmi di apprendimento automatico conducono un processo di comprensione della domanda in cui le informazioni esatte che vengono ricercate vengono estratte dalla domanda. Il passo successivo è l’identificazione delle “domande di qualità”, che viene effettuata attraverso la classificazione della qualità delle domande che aiuta a distinguere tra domande di alta e bassa qualità.
In questa fase, gli algoritmi determinano anche diversi tipi di domande. Una volta che le domande sono state classificate, il passaggio prevede l’etichettatura domanda-argomento, in cui il modello determina il secchio/argomento in cui la domanda deve essere elencata. Qui l’analisi si basa sui dati che descrivono le azioni che i “Quorans” intraprendono sulla piattaforma. Per facilitare l’ analisi , Quora si basa su una relazione schematica tra utenti, domande e argomenti. A differenza della maggior parte delle applicazioni di modellazione degli argomenti che si occupano di testi di documenti di grandi dimensioni e di un’ontologia di argomenti più piccoli, gli algoritmi di Quora funzionano con brevi testi di domande e “più di un milione di potenziali argomenti” su cui contrassegnare la domanda.
Quando si tratta di risposte, Quora ha un algoritmo proprietario che le classifica. È modellato in modo simile al “PageRank” di Google, che conta il numero e la qualità dei collegamenti a una determinata pagina per determinare l’importanza del sito web. La convinzione di fondo è che i siti Web importanti hanno maggiori probabilità di avere collegamenti a ritroso da altri siti Web. Allo stesso modo, Quora classifica le risposte in base a quanto sono utili. La parte “utile” è soggetta a fattori come voti positivi e negativi sulla risposta; precedenti risposte scritte dall’autore; se l’autore è un esperto in materia; tipo e qualità dei contenuti, tra gli altri.
Quora esamina due casi specifici di classificazione degli algoritmi di apprendimento automatico: ricerca e classificazione personalizzata . Nel caso del ranking di ricerca, per prima cosa vengono restituite le domande che corrispondono alla query; quindi, quei documenti vengono classificati in base alla probabilità di un clic. Nel caso del ranking personalizzato, Quora tenta di selezionare e classificare la risposta più “interessante” in base al modello di utilizzo dell’utente misurato dal proprio profilo.
Quora utilizza una combinazione di interesse sia delle risposte che delle domande. Le azioni imminenti vengono considerate e aggregate in diverse finestre temporali e alimentate all’algoritmo di classificazione. Quora continua a sperimentare il modello di feed personalizzato.
Un’altra considerazione importante per Quora quando si tratta di applicazioni di classificazione dei feed è che deve rispondere a fattori come le azioni degli utenti, le impressioni e gli eventi di tendenza. La sfida qui è che c’è una crescente raccolta di domande e risposte che potrebbe non essere possibile classificare in tempo reale per ogni utente. Per ottimizzare l’esperienza dell’utente, Quora implementa un algoritmo di classificazione in più fasi in cui i candidati vengono classificati anche prima che venga effettivamente eseguita la classifica finale.
Mantenere la qualità
Una delle considerazioni principali nelle discussioni sulla qualità dell’esperienza su Quora è filtrare i contenuti duplicati. A tal fine, il team ML di Quora rileva diverse domande che hanno lo stesso intento e le unisce in un’unica domanda canonica. Una delle tecniche utilizzate è un modello di foresta casuale con caratteristiche come la somiglianza del coseno dell’incorporamento word2ved medio di token, parole comuni, parte dei tag vocali delle parole e argomenti comuni etichettati sulle domande. A parte questo, Quora ha anche diversi sistemi di apprendimento automatico e le loro combinazioni per affrontare i contenuti spam. Inoltre, gli algoritmi di apprendimento automatico insieme ai moderatori umani aiutano a identificare i contenuti offensivi, offensivi e offensivi sulla piattaforma.
Fino al 2016, la piattaforma era senza pubblicità. Secondo Nikhil Dandekar , ex direttore tecnico di Quora, la piattaforma utilizza la previsione del CTR degli annunci per assicurarsi che gli annunci mostrati siano pertinenti per gli utenti e offrano anche un buon rapporto qualità-prezzo per gli inserzionisti.
Nel complesso, i migliori algoritmi di apprendimento automatico utilizzati da Quora includono, ma non sono limitati a, regressione logistica, reti elastiche, alberi decisionali con gradiente potenziato, foreste casuali, reti neurali, LambdaMART, fattorizzazione della matrice, modelli vettoriali e molte altre tecniche di PNL.