Sei mai rimasto bloccato con una melodia ma non hai potuto dare un nome alla canzone? Ci siamo passati tutti. Si chiama “earworm”. Non va via finché non ascoltiamo di nuovo la canzone. La frustrazione della debole memoria costringe le persone a ricorrere a tutti i tipi di trucchi. Uno di questi sforzi è canticchiare la melodia alle persone vicine a noi in modo che possano aiutarci con il nome della canzone. I ricercatori di Google stanno lavorando su questo aspetto della ricerca da un po ‘di tempo.
Il mese scorso hanno implementato questa funzione sul loro motore di ricerca in cui le persone possono canticchiare e trovare la canzone pertinente. Il ronzio non è perfetto; anche gli amici che hanno familiarità con la tua voce e i tuoi gusti musicali impiegheranno un po ‘di tempo per identificare la canzone. Allora, come lo fa Google? La risposta è l’apprendimento automatico.
Come funziona
Canticchia una melodia nella Ricerca Google.
I modelli ML trasformano questo audio in una sequenza basata sui numeri che rappresenta la melodia della canzone.
I modelli sono addestrati per identificare queste tracce musicali in base a fonti come gli umani che cantano, fischiano o mormorano, così come le registrazioni in studio.
Queste sequenze basate sui numeri vengono confrontate con migliaia di canzoni da tutto il mondo e identificano potenziali corrispondenze in tempo reale.
L’idea di canticchiare per trovare una canzone non è nuova, ma Google afferma di aver capito abbastanza bene. Allora qual è la salsa segreta dietro il loro algoritmo?
ML Dietro Hum To Search
In un blog che descrive in dettaglio l’apprendimento automatico alla base della loro nuova funzionalità, il team di Google AI ha scritto di aver addestrato una rete neurale con coppie di audio ronzato con audio registrato per produrre incorporamenti per ogni input. Questi ingressi vengono successivamente utilizzati per la corrispondenza con una melodia canticchiata.
L’idea qui è di generare incorporamenti per ogni coppia dell’audio ronzante. Quindi, all’interno dello spazio di incorporamento, gli incorporamenti vicini o lontani aiutano ulteriormente l’algoritmo a identificare la coppia corrispondente. Ad esempio, le coppie di audio contenenti melodie diverse dovrebbero essere molto distanti. La rete è già addestrata su tali coppie.
Il modello addestrato dovrebbe essere in grado di generare incorporamenti per una melodia simile all’incorporamento dell’audio di riferimento della canzone. Ora trovare la canzone giusta significa solo trovare incorporamenti simili da un database di registrazioni di riferimento calcolate dall’audio della musica popolare.
Finora, il processo sembra buono ma ciò che fa davvero la differenza è incorporare la “tripletta” nei modelli ML.
Il compito della perdita di triplette è ignorare alcune parti dei dati di addestramento. Data una coppia di audio corrispondente alla stessa melodia, la perdita di terzine ignora quelle parti dei dati di addestramento che sono state derivate da una melodia diversa.
L’algoritmo elimina altri audio di accompagnamento come quelli degli strumenti e altri = registrazioni. Il modello è lasciato con la sequenza basata sui numeri della canzone o per dire la sua identità unica. L’aggiunta della perdita di triplette, ha scritto Google , ha portato a miglioramenti nella precisione e nel richiamo del modello.
Oltre a ciò, il team di Google, per migliorare le prestazioni del modello, ha generato dati di addestramento aggiuntivi di melodie “ronzate” simulate dal set di dati audio esistente utilizzando SPICE, un modello di estrazione del tono sviluppato da Google.
Questo modello estrae i valori del tono da un dato audio, che vengono quindi utilizzati per generare una melodia composta da toni audio discreti. Questo passaggio è seguito dalla sostituzione del semplice generatore di suoni con una rete neurale che genera un audio simile a una melodia reale.
Infine, i dati di addestramento vengono confrontati mixando e abbinando i campioni audio. E, se c’è una clip simile di due cantanti diversi, i ricercatori hanno assicurato che quei due clip fossero allineati con i modelli preliminari in modo tale da mostrare clip audio che rappresentano la stessa melodia.