Un percorso di apprendimento per diventare un data scientist
La roadmap in 10 passaggi per dare il via al futuro della scienza dei dati
La scienza dei dati è uno dei settori in rapida crescita che richiedono una crescita quotidiana di uno scienziato dei dati. A partire da ottobre 2020, non vedo che questa domanda rallenti presto. È un campo interdisciplinare che può aiutarci ad analizzare i dati che ci circondano per rendere la nostra vita migliore e il nostro futuro più luminoso.
Fortunatamente, diventare un data scientist non richiede una laurea. Finché sei aperto all’apprendimento di cose nuove e disposto a dedicare impegno e tempo, puoi diventare un data scientist.
La domanda ora è: da dove cominciare?
“L’inizio è forse più difficile di ogni altra cosa, ma tieni il cuore, andrà tutto bene.”
-
Internet è pieno di tutorial su tutti i dettagli di ogni aspetto della scienza dei dati, come le basi dell’apprendimento automatico, l’elaborazione del linguaggio naturale, il riconoscimento vocale e ogni tipo di incredibile magia della scienza dei dati.
Ma,
Per un principiante, la quantità di informazioni può essere travolgente e indurre qualcuno ad arrendersi prima ancora di iniziare.
Ciò che potrebbe aiutare è avere una roadmap strutturata che delinea chiaramente ciò che devi imparare e l’ordine in cui dovresti imparare per diventare un data scientist.
In questo articolo, traccerò una roadmap di 10 passaggi dall’inizio alla fine dei concetti che devi coprire durante il tuo viaggio di apprendimento della scienza dei dati.
Passaggio №1: programmazione
Se sei nuovo nel campo tecnico, la programmazione sarebbe il posto migliore per iniziare. Attualmente, i due linguaggi di programmazione più utilizzati nella scienza dei dati sono Python e R.
R: Un linguaggio di programmazione per il calcolo statistico. R è ampiamente utilizzato per lo sviluppo di software statistici e analisi dei dati.
Python: un linguaggio di programmazione generico di alto livello. Python è ampiamente utilizzato in molte applicazioni e campi, dalla semplice programmazione all’informatica quantistica.
Poiché Python è un linguaggio di programmazione adatto ai principianti, lo trovo un ottimo punto di partenza con la scienza dei dati e forse più campi in futuro. A causa della popolarità di Python, sono disponibili molte risorse per apprenderlo indipendentemente dal campo di applicazione dell’obiettivo.
Alcune delle mie risorse di apprendimento Python preferite sono CodeAcademy , Google Classes , Learn Python the Hard Way .
Tuttavia, se decidi di utilizzare R, sia Coursera che edX hanno ottimi corsi che puoi controllare gratuitamente.
Alcuni di voi potrebbero già sapere come programmare e potrebbero essere trasferiti alla scienza dei dati da un altro campo tecnico. In tal caso, puoi saltare questo passaggio e passare alla fase successiva del viaggio.
Passaggio №2: database
Il cuore della scienza dei dati sono i dati . Puoi pensare alla scienza dei dati come all’arte di raccontare una storia utilizzando i dati.
Ogni volta che lavori su un progetto di data science, avrai bisogno di dati per analizzare, visualizzare e costruire un progetto valido. Questi dati sono spesso archiviati in alcuni database.
Un passaggio essenziale per distinguersi come data scientist è interagire e comunicare con i database in modo efficace. Se potessi progettare un semplice database, questo ti porterà al livello successivo.
Per comunicare con un database, dovrai parlare la sua lingua. Questo è SQL. SQL è l’acronimo di Structured Query Language e viene utilizzato per comunicare con un database.
Le mie risorse preferite per imparare l’SQL sono CodeAcademy , Khan Academy e l’apprendimento interattivo, SQLCourse .
Passaggio №3: matematica
Il cuore della scienza dei dati è la matematica. Per capire come funzionano i diversi concetti di scienza dei dati, è necessario avere una conoscenza di base della matematica sottostante.
So che la matematica è una cosa che potrebbe fare un po ‘di backup nel perseguire una carriera nella scienza dei dati.
Ma,
È necessario comprendere le basi della teoria della probabilità, delle statistiche e dell’algebra lineare per comprendere la scienza dei dati. Tuttavia, la maggior parte degli strumenti che useresti nella tua carriera eliminerà l’implementazione della matematica stessa nei tuoi progetti.
Quindi, devi capire come funziona, come e quando usarlo.
Non lasciare che la matematica ti intimidisca dall’esplorare il mondo della scienza dei dati. Direi che ne vale la pena. Ci sono alcuni materiali utili su Coursera che possono aiutarti ad affrontare i calcoli di cui hai bisogno.
Competenze matematiche in Data Science
Matematica per la specializzazione in Data Science
La scienza dei dati è tutta una questione di probabilità
Le 4 distribuzioni di probabilità più comuni utilizzate nella scienza dei dati
versodatascience.com
5 Applicazioni dell’algebra lineare nella scienza dei dati
Algebra lineare in ML, CV e PNL
versodatascience.com
Passaggio №4: controllo della versione
Nello sviluppo del software in generale e nella scienza dei dati, uno dei concetti più importanti da padroneggiare – o provare a – è il controllo della versione.
Ogni volta che lavori a un progetto di data science, dovrai scrivere file di codice diversi, esplorare set di dati e collaborare con altri data scientist. La manipolazione, tutte le modifiche nel codice, viene eseguita tramite il controllo della versione, ovvero utilizzando Git.
Git è un sistema di controllo della versione utilizzato per tenere traccia delle modifiche nel codice sorgente durante il processo di sviluppo del software. Git è stato creato per coordinare il lavoro tra un gruppo di programmatori o per essere utilizzato per tenere traccia delle modifiche in qualsiasi set di file da un singolo programmatore.
Sebbene Git sia un sistema, alcuni siti Web ti consentono di utilizzare Git facilmente senza la necessità di interagire molto con la riga di comando – alla fine, però, alla fine passerai alla riga di comando – come GitHub o GitLab .
Fortunatamente, ci sono molte risorse per aiutarti a capire le funzionalità interne di Git; le mie scelte migliori sono BitBucket Learn Git Tutorials e questa lezione del corso Harvard CS50.
Passaggio №5: nozioni di base sulla scienza dei dati
La scienza dei dati è un termine ampio; include diversi concetti e tecnologie. Ma prima di immergerti nel grande mare della scienza dei dati, devi prima familiarizzare con alcune nozioni di base.
Ci sono competenze importanti che devi sviluppare e su cui lavorare per diventare un data scientist di successo, ad esempio:
Trovare set di dati: ci sono due modi per avviare qualsiasi progetto di data science; si dispone di un set di dati che si desidera utilizzare per creare un progetto. Oppure hai un’idea e devi trovare un set di dati per. Esplorare i set di dati e scegliere quello giusto per il tuo progetto è un’abilità importante da ottenere.
Comunicazione scientifica: come scienziato dei dati, dovrai comunicare con un pubblico generale per fornire il tuo processo e le tue scoperte. Quindi, dovrai sviluppare le tue capacità di comunicazione scientifica e spiegare concetti complessi usando termini semplici.
Visualizzazione efficace: l’unico modo per convalidare i risultati è visualizzarli. La visualizzazione gioca un ruolo importante nella scienza dei dati, dall’esplorazione dei dati alla fornitura dei risultati. Acquisire familiarità con una visualizzazione efficace dei dati può farti risparmiare un sacco di tempo e fatica durante il tuo progetto.
Data Visualization 101: 7 passaggi per visualizzazioni efficaci
Racconta la storia dei tuoi dati con immagini accattivanti.
versodatascience.com
Passaggio №6: nozioni di base sull’apprendimento automatico
Quindi, hai lavorato sulle tue abilità di programmazione, rispolverato i tuoi calcoli e ti sei tuffato nei database. Ora sei pronto per iniziare la parte divertente, applicando ciò che hai imparato finora per costruire i tuoi primi progetti.
Le basi dell’apprendimento automatico sono il punto di partenza. Qui è quando inizi ad apprendere ed esplorare algoritmi e tecniche di apprendimento automatico di base, come la regressione lineare e logistica, alberi decisionali, Naive Bayes e support vector machine (SVM).
Qui inizi anche a scoprire i diversi pacchetti Python o R per gestire e implementare i tuoi dati. Potrai usare Sciket-learn , Scipy e Numpy .
Imparerai come ripulire i tuoi dati per avere posizioni e risultati più precisi. Questa è la parte in cui potrai sperimentare cosa puoi fare con la scienza dei dati e sarai in grado di vedere l’impatto che il campo ha sulla nostra vita quotidiana.
Il posto migliore per iniziare a conoscere i diversi aspetti dell’apprendimento automatico sono i vari articoli su Towards Data Science.
Passaggio №7: serie storica e convalida del modello
È ora di approfondire l’apprendimento automatico. I tuoi dati non saranno stazionari; è spesso legato al tempo in qualche modo. Le serie temporali sono punti dati ordinati in base al tempo.
Più comunemente, le serie temporali sono sequenze di dati acquisite in punti successivi equidistanti nel tempo. Rendendoli dati a tempo discreto. Le serie temporali mostrano come il tempo modifica i dati. Ciò consente di ottenere informazioni su tendenze, periodicità nei dati e prevedere il comportamento futuro dei dati.
Quando si tratta di serie temporali, è necessario lavorare su due parti principali:
Analisi dei dati di serie temporali.
Previsione dei dati delle serie temporali.
Costruire modelli per prevedere il comportamento futuro non è sufficiente; è necessario convalidare la correttezza di questo modello. Qui imparerai come costruire e testare i modelli in modo efficiente.
Inoltre, imparerai come stimare la soglia di errore per ogni progetto e come mantenere i tuoi modelli entro intervalli accettabili.
Passaggio №8: reti neurali
Le reti neurali (reti neurali artificiali o ANN) sono un paradigma di programmazione di ispirazione biologica che consente a un computer di apprendere dai dati osservativi.
Le ANN sono nate come un approccio per imitare l’architettura del cervello umano per eseguire diversi compiti di apprendimento. Affinché una RNA assomigli al cervello umano, è stata progettata per contenere gli stessi componenti di una cellula umana.
Quindi, ANN contiene una raccolta di neuroni; ogni neurone rappresenta un nodo connesso a un altro tramite link. Questi collegamenti corrispondono alle connessioni biologiche assone-sinapsi-dendrite. Inoltre, ciascuno di questi collegamenti ha un peso che determina la forza che un nodo ha su un altro.
L’apprendimento ANN ti consente di affrontare una gamma più ampia di attività, tra cui il riconoscimento della scrittura a mano, il riconoscimento di modelli e l’identificazione del viso.
Le ANN rappresentano la logica di base che devi conoscere per procedere alla fase successiva del tuo viaggio nella scienza dei dati, il deep learning.
Passaggio №9: apprendimento profondo
Le reti neurali sono paradigmi che alimentano l’apprendimento profondo. Il deep learning rappresenta un potente insieme di tecniche che sfruttano il potere di apprendimento delle reti neurali.
È possibile utilizzare reti neurali e deep learning per affrontare le migliori soluzioni a molti problemi in vari campi, tra cui il riconoscimento delle immagini, il riconoscimento vocale e l’elaborazione del linguaggio naturale.
Ormai avrai familiarità con molti pacchetti Python che si occupano di diversi aspetti della scienza dei dati. In questo passaggio, avrai la possibilità di provare pacchetti popolari come Keras e TensorFlow.
Inoltre, a questo punto, sarai in grado di leggere i recenti progressi della ricerca nella scienza dei dati e magari svilupparne uno tuo.
Passaggio №10: elaborazione del linguaggio naturale
Sei quasi alla fine. Puoi già vedere il segnale di arrivo. Finora hai affrontato molti concetti teorici e pratici, dalla matematica semplice ai concetti complessi di deep learning.
Allora, qual è il prossimo?
Il mio sottocampo preferito della scienza dei dati, che è l’elaborazione del linguaggio naturale (PNL). L’elaborazione del linguaggio naturale è un ramo entusiasmante che ti consente di utilizzare la potenza dell’apprendimento automatico per “insegnare” al computer a comprendere ed elaborare i linguaggi umani.
Ciò includerà il riconoscimento vocale, l’applicazione da testo a voce e viceversa, l’assistenza virtuale (come Siri e BERT) e tutti i tipi di robot conversazionali diversi.
Immagine per post
Immagine dell’autore (realizzata con Canva )
Conclusione
Eccoci alla “fine” della strada. Termina qui tra una citazione, perché proprio come qualsiasi altro campo relativo alla tecnologia, non c’è fine. Il campo si sta sviluppando rapidamente; nuovi algoritmi e tecniche sono in fase di ricerca mentre scrivo questo articolo.
Quindi, essere un data scientist significa che sarai in una fase di apprendimento continuo. Svilupperai le tue conoscenze e il tuo stile mentre procedi. Probabilmente ti sentirai più attratto da un sottocampo specifico che da un altro e scaverai ancora più a fondo e forse ti specializzerai in quel sottocampo.
La cosa più importante da sapere mentre ti imbarchi in questo viaggio è che puoi farlo; devi essere di mentalità aperta e dedicare abbastanza tempo e sforzi per raggiungere i tuoi obiettivi finali.