Nel mondo dell’intelligenza artificiale, la corsa per addestrare modelli di machine learning sempre più potenti è in pieno fermento. Tuttavia, una sfida crescente per i ricercatori e le aziende è la cura di set di dati adeguati per supportare questo addestramento.
Per affrontare questa sfida, un team di ricercatori provenienti da Meta AI, Google, INRIA e Université Paris Saclay ha sviluppato una nuova tecnica per la cura automatica dei set di dati utilizzati nell’apprendimento autosupervisionato (SSL).
Questo metodo innovativo sfrutta modelli di incorporamento e algoritmi di clustering per selezionare, senza l’ausilio di annotazioni manuali, set di dati ampi, diversificati e bilanciati.
L’apprendimento autosupervisionato, che addestra modelli su dati non etichettati, è diventato fondamentale nell’ambito dell’intelligenza artificiale moderna, alimentando modelli linguistici avanzati, codificatori visivi e applicazioni specializzate come l’imaging medico.
Tuttavia, la qualità dei dati è cruciale per il successo dei modelli SSL. Spesso, i dati grezzi raccolti casualmente da Internet presentano una distribuzione non uniforme, con alcuni concetti dominanti che occupano una parte sproporzionata del set di dati.
Per affrontare questo problema, i ricercatori hanno proposto un approccio automatico alla selezione dei dati di addestramento, che utilizza modelli di incorporamento e algoritmi di clustering per bilanciare e diversificare i dati.
Il loro metodo impiega un algoritmo gerarchico di clustering k-means in più fasi, che costruisce un albero di cluster di dati in modo bottom-up. Questo approccio permette di creare gruppi di esempi correlati in modo bilanciato e rappresentativo.
I risultati degli esperimenti condotti dai ricercatori hanno dimostrato che i modelli addestrati sui set di dati curati automaticamente hanno raggiunto prestazioni paragonabili a quelli addestrati su set di dati curati manualmente, ma con un notevole risparmio di tempo e sforzo umano.
Questa tecnica di cura automatica dei dati potrebbe avere importanti implicazioni per progetti di machine learning in settori dove è difficile ottenere dati etichettati e curati. Inoltre, potrebbe rendere l’addestramento del modello più efficiente e scalabile, aprendo la strada a una nuova era di applicazioni intelligenti alimentate da dati di alta qualità.