Un sistema AI Soulmate Recommender basato solo su immagini
I ricercatori del Regno Unito hanno utilizzato le reti neurali per sviluppare un sistema di raccomandazione interamente basato su immagini per incontri di appuntamenti online che tiene conto solo del fatto che due utenti siano attratti o meno dalle foto dell’altro (piuttosto che dalle informazioni del profilo come lavoro, età, ecc. ), e hanno scoperto che supera i sistemi meno “superficiali” in termini di ottenimento di una corrispondenza accurata.
Il sistema risultante è chiamato Temporal Image-Based Reciprocal Recommender (TIRR) e utilizza Recurrent Neural Networks (RNN) per interpretare la predilezione storica di un utente per i volti che incontra durante la ricerca di potenziali corrispondenze.
Il documento è intitolato – forse in modo scoraggiante – Photos Are All You Need for Reciprocal Recommendation in Online Dating e proviene da due ricercatori dell’Università di Bristol, migliorando notevolmente un sistema simile (chiamato ImRec ) rilasciato dallo stesso team nel 2020.
Nei test, il sistema ha ottenuto un’accuratezza all’avanguardia nella sua capacità di prevedere le corrispondenze reciproche tra gli utenti, migliorando non solo il lavoro dei ricercatori per il 2020, ma anche altri sistemi di raccomandazione reciproca di datazione basata sui contenuti che tengono conto di più informazioni dettagliate e testuali nei profili di appuntamenti.
Dataset di incontri nel mondo reale
TIRR è stato addestrato sulle informazioni degli utenti fornite da un servizio di incontri online “popolare” senza nome con “diversi milioni di utenti registrati”, che consente agli utenti di comunicare tra loro solo dopo che a ciascuno è piaciuto il profilo dell’altro. Il sottoinsieme di dati utilizzato includeva 200.000 soggetti, divisi equamente tra uomini e donne, e circa 800.000 preferenze espresse dagli utenti in tutti i profili di incontri.
Poiché il servizio di incontri anonimi che fornisce i dati supporta solo le corrispondenze eterosessuali, nella ricerca sono state trattate solo le corrispondenze uomo/donna.
TIRR migliora i precedenti progetti di sistemi di raccomandazione reciproca (RRS) in questo campo calcolando direttamente la probabilità di una corrispondenza tra due profili, basata esclusivamente sulle immagini del profilo. I sistemi precedenti invece prevedevano due preferenze unidirezionali e poi le aggregavano per ottenere una previsione.
I ricercatori hanno escluso gli utenti che erano stati rimossi dal servizio di appuntamenti (per qualsiasi motivo, incluso l’abbandono volontario) e hanno escluso i profili che non includevano foto basate sul volto.
Le storie degli utenti erano limitate a un anno fa, al fine di evitare potenziali anomalie che potrebbero verificarsi quando il sito di incontri ha ottimizzato i suoi algoritmi nel tempo. Sono state inoltre limitate a un massimo di 15 preferenze dell’utente, poiché queste sono state dimostrate sufficienti per dimostrare il design del modello, mentre un uso più esteso delle preferenze ha degradato le prestazioni e aumentato i tempi di addestramento.
Inoltre, alcuni degli utenti più accaniti o a lungo termine avevano storie con migliaia di preferenze, che avrebbero potuto rischiare di distorcere il peso delle caratteristiche ottenute e prolungare ulteriormente i tempi di allenamento.
Siamese Network
TIRR è formulato utilizzando una rete siamese , tipicamente utilizzata per l’apprendimento “one-shot” .
Un modello di rete siamese, in cui le reti neurali convoluzionali parallele (CNN) condividono i pesi ma non i dati. Condividono anche una funzione di perdita derivata dagli output di ciascuna CNN e un’etichetta di verità di base. Fonte: https://arxiv.org/pdf/2108.11714.pdf
La rete è stata addestrata utilizzando l’ entropia incrociata binaria , una funzione di perdita comune nelle reti neurali e che i ricercatori hanno scoperto fornire risultati superiori rispetto alla perdita di contrasto . Quest’ultimo è più efficace nei sistemi che valutano la parità tra due facce, ma poiché questo non è l’obiettivo del TIRR, è un approccio che funziona male in questo contesto.
È necessario che il sistema conservi e costruisca sulle informazioni che sviluppa mentre l’addestramento itera molte volte sugli stessi dati e la rete siamese in TIRR utilizza una rete LSTM (Long Term Short-Term Memory) per prendere queste decisioni e per garantire che le caratteristiche ritenute rilevanti non vengano scartate ad hoc man mano che il framework costruisce le sue intuizioni.
L’architettura di rete siamese specifica per TIRR.
I ricercatori hanno scoperto che la rete si è allenata molto lentamente quando sono stati inseriti tutti i dati e successivamente ha suddiviso la formazione in tre fasi utilizzando tre diversi sottoinsiemi di dati. C’è un ulteriore vantaggio in questo, poiché gli esperimenti del 2020 dei ricercatori avevano già dimostrato che la formazione dei set di dati maschili e femminili separatamente migliora le prestazioni di un sistema di raccomandazione reciproco.
La ripartizione delle sessioni di formazione separate per la rete siamese di TIRR.
test
Per valutare le prestazioni di TIRR, i ricercatori hanno tenuto da parte una parte dei dati ottenuti e l’hanno passata attraverso il sistema completamente convergente. Tuttavia, poiché il sistema è abbastanza nuovo, non ci sono sistemi precedenti direttamente analoghi a cui potrebbe essere confrontato.
Pertanto i ricercatori hanno prima stabilito una linea di base della curva delle caratteristiche operative del ricevitore ( ROC ) per la rete siamese, prima di utilizzare l’approssimazione uniforme del collettore e la proiezione per la riduzione della dimensionalità ( UMAP ) per ridurre i vettori a 128 dimensioni per una facile visualizzazione, al fine di stabilire un coerente flusso di simpatie e antipatie.
A sinistra, il ROC della rete siamese come indicatore di base della performance; a destra, la visualizzazione UMAP mostra “mi piace” in rosso, “non mi piace” in nero.
TIRR è stato testato rispetto al filtraggio collaborativo e ai sistemi basati sui contenuti con un ambito simile, incluso il lavoro precedente dei ricercatori ImRec (vedi sopra) e RECON , un RRS del 2010, nonché gli algoritmi di filtraggio collaborativo RCF (un RRS del 2015 basato su sul contenuto testuale dei profili di incontri) e LFRR (un progetto simile del 2019).
In tutti i casi TIRR è stato in grado di offrire una precisione superiore, anche se solo marginalmente rispetto a LFRR, indicando forse fattori di correlazione tra il contenuto del testo del profilo e il livello di attrattiva percepito delle foto del profilo dei soggetti.
La quasi parità tra TIRR basato su immagini e LFRR più basato su testo consente almeno due possibilità: che la percezione dell’attrattiva visiva da parte degli utenti sia influenzata dal contenuto testuale dei profili; o che il contenuto del testo riceve maggiore attenzione e approvazione di quanto si sarebbe potuto verificare se l’immagine associata non fosse stata percepita come attraente.
Per ovvie ragioni, il team di ricerca non è in grado di rilasciare il set di dati o il codice sorgente per TIRR, ma incoraggia altri team a duplicare e confermare il loro approccio.