Nel mondo dell’intelligenza artificiale, la corsa per addestrare modelli di machine learning sempre più potenti è in pieno fermento. Tuttavia, una sfida crescente per i ricercatori e le aziende è la cura di set di dati adeguati per supportare questo addestramento.

Per affrontare questa sfida, un team di ricercatori provenienti da Meta AI, Google, INRIA e Université Paris Saclay ha sviluppato una nuova tecnica per la cura automatica dei set di dati utilizzati nell’apprendimento autosupervisionato (SSL).

Questo metodo innovativo sfrutta modelli di incorporamento e algoritmi di clustering per selezionare, senza l’ausilio di annotazioni manuali, set di dati ampi, diversificati e bilanciati.

L’apprendimento autosupervisionato, che addestra modelli su dati non etichettati, è diventato fondamentale nell’ambito dell’intelligenza artificiale moderna, alimentando modelli linguistici avanzati, codificatori visivi e applicazioni specializzate come l’imaging medico.

Tuttavia, la qualità dei dati è cruciale per il successo dei modelli SSL. Spesso, i dati grezzi raccolti casualmente da Internet presentano una distribuzione non uniforme, con alcuni concetti dominanti che occupano una parte sproporzionata del set di dati.

Per affrontare questo problema, i ricercatori hanno proposto un approccio automatico alla selezione dei dati di addestramento, che utilizza modelli di incorporamento e algoritmi di clustering per bilanciare e diversificare i dati.

Il loro metodo impiega un algoritmo gerarchico di clustering k-means in più fasi, che costruisce un albero di cluster di dati in modo bottom-up. Questo approccio permette di creare gruppi di esempi correlati in modo bilanciato e rappresentativo.

I risultati degli esperimenti condotti dai ricercatori hanno dimostrato che i modelli addestrati sui set di dati curati automaticamente hanno raggiunto prestazioni paragonabili a quelli addestrati su set di dati curati manualmente, ma con un notevole risparmio di tempo e sforzo umano.

Questa tecnica di cura automatica dei dati potrebbe avere importanti implicazioni per progetti di machine learning in settori dove è difficile ottenere dati etichettati e curati. Inoltre, potrebbe rendere l’addestramento del modello più efficiente e scalabile, aprendo la strada a una nuova era di applicazioni intelligenti alimentate da dati di alta qualità.

Di Fantasy