Una nuova ricerca proveniente dalla Columbia Engineering suggerisce che i sistemi di intelligenza artificiale (AI) preferiscono il linguaggio umano invece dei dati numerici come 1 e 0. Il nuovo studio è del professore di ingegneria meccanica Hod Lipson e del dottorando Boyuan Chen, e ha dimostrato che i sistemi di intelligenza artificiale potrebbero raggiungere livelli di prestazioni più elevati se programmati con file audio in linguaggio umano.
In un confronto fianco a fianco, i ricercatori hanno scoperto che una rete neurale addestrata da file audio ha raggiunto livelli di prestazioni più elevati nell’identificazione degli oggetti, rispetto all’altra rete programmata con semplici input binari.
Lipson è un professore di innovazione di James e Sally Scapa e membro del Data Science Institute della Columbia .
“Per capire perché questa scoperta è significativa, è utile capire come vengono solitamente programmate le reti neurali e perché l’uso del suono della voce umana è un esperimento radicale”, ha detto.
L’uso di numeri binari è compatto e preciso, mentre il linguaggio umano è più complesso e non binario quando viene catturato in un file digtal. I programmatori di solito non si discostano dai numeri quando sviluppano una rete neurale poiché è altamente efficiente.
Il team ha intrapreso questa ricerca dopo aver pensato che le reti neurali non stiano raggiungendo il loro pieno potenziale e credevano che avrebbero potuto essere più veloci e migliori se fossero state addestrate con la voce umana e parole specifiche.
Formazione delle reti
Quando testano una nuova tecnica di apprendimento automatico , i ricercatori di intelligenza artificiale spesso addestrano una rete neurale per riconoscere oggetti e animali specifici in una raccolta di fotografie.
Il team, che comprendeva Chen, Lipson, Yu Li e Susan Raghupathi, ha organizzato un esperimento controllato per testare la loro ipotesi e ha creato due nuove reti neurali. Hanno deciso di addestrarli a riconoscere 10 diversi tipi di oggetti tra 50.000 fotografie chiamate “immagini di addestramento”.
Uno dei sistemi di intelligenza artificiale è stato addestrato in modo più tradizionale con valori numerici, mentre la rete neurale sperimentale è stata addestrata in modo molto diverso. È stata alimentata una tabella di dati con righe contenenti una fotografia di un animale o un oggetto e la seconda colonna aveva un file audio di voce umana, che ha espresso la parola per l’animale o l’oggetto. Non c’erano 1 o 0 coinvolti nella rete sperimentale.
Entrambi i sistemi di intelligenza artificiale sono stati addestrati per un totale di 15 ore. I risultati hanno mostrato che la rete originale rispondeva con una serie di dieci 1 e 0, mentre la rete neurale sperimentale produceva una voce che stava chiaramente cercando di “dire” quale fosse l’oggetto nell’immagine. Sebbene la voce originale non fosse comprensibile, alla fine raggiunse il punto di essere per lo più corretta.
Le due reti si sono comportate ugualmente bene, identificando correttamente l’animale o l’oggetto il 92% delle volte. I ricercatori hanno quindi deciso di eseguire l’esperimento per la seconda volta, ma questa volta hanno utilizzato meno fotografie durante il processo.
La rete tradizionale ha funzionato male a causa dei dati di riserva, come ci si aspetterebbe, che sono scesi a circa il 35% di precisione. Tuttavia, la rete sperimentale ha fatto anche il doppio, con una precisione del 70%, nonostante avesse meno dati.
Oltre la rappresentazione dell’etichetta categoriale per la classificazione delle immagini
Risultati sorprendenti
La volta successiva, il team ha utilizzato immagini più difficili, come l’immagine danneggiata di un cane. Anche con le immagini più difficili, la rete neurale con addestramento vocale era corretta circa il 50% delle volte, mentre la rete tradizionale era accurata solo del 20%.
Boyuan Chen è il ricercatore principale dello studio.
“I nostri risultati sono in diretto contrasto con il numero di esperti formati per pensare a computer e numeri; è un presupposto comune che gli input binari siano un modo più efficiente per trasmettere informazioni a una macchina rispetto a flussi audio di simile “ricchezza” di informazioni “, ha spiegato Chen. “In effetti, quando abbiamo presentato questa ricerca a una grande conferenza sull’intelligenza artificiale, un revisore anonimo ha rifiutato il nostro articolo semplicemente perché riteneva che i nostri risultati fossero” troppo sorprendenti e poco intuitivi “.
“Se pensi al fatto che il linguaggio umano ha attraversato un processo di ottimizzazione per decine di migliaia di anni, allora ha perfettamente senso che le nostre parole pronunciate abbiano trovato un buon equilibrio tra rumore e segnale”, ha detto Lipson. “Pertanto, se vista attraverso la lente di Shannon Entropy, ha senso che una rete neurale addestrata con il linguaggio umano possa superare una rete neurale addestrata da semplici 1 e 0”.
Lo studio sarà presentato alla Conferenza internazionale sulle rappresentazioni dell’apprendimento il 3 maggio 2021.
“Dovremmo pensare di utilizzare modi nuovi e migliori per addestrare i sistemi di intelligenza artificiale invece di raccogliere set di dati più grandi”, ha affermato Chen. “Se ripensiamo al modo in cui presentiamo i dati di formazione alla macchina, potremmo fare un lavoro migliore come insegnanti”.
“Uno dei più grandi misteri dell’evoluzione umana è come i nostri antenati hanno acquisito il linguaggio e come i bambini imparano a parlare così facilmente”, aggiunge Lipson. “Se i bambini piccoli imparano meglio con ripetute istruzioni vocali, forse lo possono fare anche i sistemi di intelligenza artificiale.”