Dentro DagsHub: GitHub per data science e machine learning
 
La scienza dei dati e l’apprendimento automatico trattano concetti matematici complessi e strumenti di programmazione per costruire il giusto tipo di algoritmi per le decisioni aziendali. Collaborazioni e discussioni durante l’intraprendenza e la creazione di questi progetti possono essere di grande aiuto per i data scientist e i professionisti dell’apprendimento automatico. Proprio come GitHub esiste per collaborare allo sviluppo di software in modalità open source , una piattaforma lanciata nel 2019 denominata DagsHub sta diventando sempre più popolare tra i data scientist e gli ingegneri dell’apprendimento automatico per riunirsi su un terreno comune per costruire il proprio lavoro.

“È come GitHub per la scienza dei dati e l’apprendimento automatico”, così si descrive DagsHub. È una piattaforma web per il controllo della versione dei dati e la collaborazione per data scientist e ingegneri di machine learning e si basa su strumenti open source , ottimizzati per la scienza dei dati e orientati alla comunità open source.

La società con sede a Tel Aviv è stata lanciata nel 2019 da Dean Pleban e Guy Smoilovsky . Ad oggi, ha raccolto oltre tre milioni di dollari in due round di finanziamento nel 2019 e nel 2020. Solo poche settimane fa, DagsHub ha lanciato DagsHub 2.0. Con quel lancio, ha anche annunciato che ora è possibile annotare i dati su DagsHub e discutere su qualsiasi file sulla piattaforma. 


Casa per la scienza dei dati open source
I team di data science possono trovare difficile collaborare. Mentre spiega il motivo per l’avvio di questa piattaforma, DagsHub afferma che la principale differenza tra la scienza dei dati e i flussi di lavoro di sviluppo software è che gli strumenti esistenti non sono adatti.

I fondatori aggiungono: “DagsHub è stato creato per essere una casa per la scienza dei dati open source, dove tutti possono contribuire e rendere il processo di ricerca e sviluppo trasparente, inclusivo e migliore per tutti; per aiutare gli sviluppatori nei campi dell’apprendimento automatico e della scienza dei dati a creare e imparare gli uni dagli altri. Crediamo che la tecnologia dovrebbe aiutarci a concentrarci sull’affrontare le sfide più interessanti e importanti della vita”.

Costruito su DVC
I progetti di data science e machine learning spesso richiedono il controllo delle versioni di file di grandi dimensioni, cosa in cui Git non è molto bravo. DagsHub afferma che Git e git-lfs non eseguono la versione della pipeline di dati. Ciò significa che se c’è una modifica nella pipeline di dati, le persone che lavorano al progetto non sapranno che la fine della pipeline deve essere riprodotta.

Il sito Web informa che DagsHub è basato su Git e DVC . DVC è uno strumento da riga di comando open source creato per il controllo delle versioni di dati e pipeline. È possibile inviare a un’altra persona un collegamento al proprio repository DagsHub e quindi esplorare il progetto. Possono scaricare i dati del progetto e dei modelli del proprietario da qualsiasi versione precedente, esperimento o ramo senza eseguire alcun codice.

Agnostico di lingua e biblioteca
Se guardiamo il sito Web dell’azienda, evidenzia le funzionalità che DagsHub fornisce agli utenti per i loro progetti di data science e machine learning. Alcuni dei più importanti sono:

Commenti: è possibile prendere appunti sulle architetture dei modelli, discutere con altri sulle annotazioni e rivedere il contributo di un altro membro del team a un progetto.
Versione tutto: è possibile esplorare le relazioni tra gli esperimenti sulle versioni dei dati e vedere il grafico della cronologia del progetto. Quando si trova il risultato desiderato, è possibile ottenere il codice e la configurazione con un solo comando.
Le annotazioni DagsHub aiutano a creare un’istanza di Label Studio con un solo clic. Viene automaticamente sincronizzato con i set di dati tracciati su DagsHub Storage.
Indipendentemente da lingua e libreria: funziona per progetti che utilizzano Python, R, Keras e PyTorch.

Di ihal