AutoML può superare i data scientist
Il machine learning automatizzato, o AutoML , è stato introdotto per colmare la carenza di talenti nel settore ML ed eliminare le attività banali degli ingegneri ML. Nel corso degli anni sono stati rilasciati molti strumenti AutoML. Ma quanto sono buoni questi strumenti? Realizzano ciò che promettono? Sono davvero diventati una soluzione alla scarsità di talenti nel settore della scienza dei dati?
Per rispondere a queste domande di vecchia data, i ricercatori del Fraunhofer Institute, in Germania, hanno studiato i framework AutoML all’avanguardia . Con loro sorpresa, hanno scoperto che gli strumenti AutoML hanno prestazioni migliori o alla pari con le loro controparti umane .
AutoML è stato introdotto per ridurre il tempo impiegato per svolgere attività iterative riguardanti lo sviluppo del modello. Gli strumenti AutoML hanno aiutato gli sviluppatori a creare modelli scalabili con una minima esperienza di dominio. Quindi, come se la cavano quando vengono messi a confronto con gli umani?
Come funziona AutoML contro gli esseri umani
I ricercatori hanno considerato 12 diversi set di dati popolari di OpenML. Di cui, sei sono attività di classificazione supervisionate e le altre sono attività di regressione supervisionate. Per l’esperimento, i ricercatori hanno utilizzato lo strumento open source AutoML benchmark, che viene fornito con la piena integrazione di set di dati OpenML per molti framework AutoML, nonché funzioni di benchmarking automatizzate.
La classificazione supervisionata e la regressione supervisionata essendo le attività di apprendimento automatico più popolari e le attività più considerate su OpenML, i ricercatori hanno scelto sei di ciascuna.
I benchmark sono stati eseguiti con le impostazioni predefinite definite in config.yaml nel progetto AutoML Benchmark. Le impostazioni includono tutti i core, 2 GiB di memoria del sistema operativo, la quantità di memoria calcolata dalla memoria disponibile del sistema operativo, tra gli altri.
I ricercatori hanno considerato quattro framework AutoML:
I framework sono stati scelti come un mix di framework molto recenti e framework che esistono da un po ‘più a lungo. La selezione comprende anche framework AutoML solo Deep Learning e framework AutoML basati su scikit-learn.
Il tempo di esecuzione per piega è stato selezionato ed è stato impostato su un’ora. Per la classificazione supervisionata, ai migliori dei quattro framework AutoML è stato assegnato un tempo di esecuzione per piega di cinque ore al fine di verificare i loro risultati con quelli degli esseri umani.
Per le attività di classificazione supervisionate, sono stati utilizzati metodi di valutazione ROC AUC (auc) e accuratezza. Per le attività di regressione supervisionate, sono stati scelti l’errore quadratico medio (rmse) e l’errore assoluto medio (mae) poiché le metriche preconfigurate da AutoML Benchmark includevano R2.
I migliori strumenti di ottimizzazione degli iperparametri
Hardware utilizzato: il server era dotato di due CPU Intel Xeon Silver 4114 da 2,20 GHz (20 core in totale), quattro moduli di memoria DIMM DDR4 sincroni da 64 GB a 2666 MHz e due NVIDIA GeForce GTX 1080 Ti (più di 22 GB di VRAM in totale).
Risultati chiave
Secondo i ricercatori, i risultati di questo sondaggio possono essere riassunti come segue:
AutoML ha ottenuto risultati migliori o uguali rispetto agli esseri umani nella metrica primaria in 7 casi su 12. Tutti questi sette casi sono attività di classificazione “facili” (ovvero attività che gli esseri umani, così come AutoML hanno risolto perfettamente) o attività di regressione.
AutoML ha ottenuto risultati migliori o uguali rispetto agli umani in entrambe le metriche.
Non sembra esserci una differenza significativa tra la metrica primaria e l’altra relativa alle prestazioni.
I ricercatori concludono che la maggior parte dei risultati ottenuti da AutoML sono solo leggermente migliori o peggiori di quelli umani. H2O , il miglior framework AutoML per il credito di classificazione supervisionato-g, raggiunge un punteggio AUC di 0,7892 utilizzando il limite di tempo di 5 ore per piega invece di 0,799 utilizzando il limite di tempo di 1 ora per piega.
In futuro, i ricercatori ritengono che ci saranno grandi passi in avanti per colmare il divario tra le competenze di dominio e AutoML. Le applicazioni di machine learning sono utilizzate prevalentemente in casi interdisciplinari. Pertanto, gli strumenti AutoML non possono fungere da soluzioni autonome. AutoML dovrebbe essere visto come un complemento delle capacità dei data scientist e non come una magica soluzione one-stop.