Comprendere la bioinformatica come principiante nella scienza dei dati

Sebbene lo skillset per Data Science sia lo stesso, l’implementazione varia da problema a problema. È qui che entra in gioco la conoscenza del dominio. È stato stabilito che qualsiasi settore che produce dati può essere ottimizzato dalle competenze di data science per prendere decisioni aziendali migliori, superare le sfide e identificare opportunità. La biologia molecolare è uno degli ultimi campi in cui l’analisi dei dati è ampiamente applicata.

In questo articolo esamineremo una breve introduzione alla bioinformatica, chiamata anche biologia computazionale , dal punto di vista di un data scientist alle prime armi .

Cos’è la bioinformatica?
Come indica il nome, la bioinformatica si occupa dell’analisi computazionale dei dati biologici a livello molecolare. È un incrocio di biologia, informatica, statistica e matematica che non sono le solite discipline studiate insieme. Di solito, un esperto di una delle specialità decide di perseguire la bioinformatica che richiede loro di familiarizzare con le restanti discipline. Questo potrebbe essere un compito difficile; quindi questo articolo aiuterà gli appassionati che hanno un background computazionale e statistico competente e stanno cercando di entrare nella bioinformatica.

Le scienze della vita contengono una pletora di dati che necessitano di strumenti e framework di calcolo per gestire questi dati e renderli più leggibili e accessibili. La bioinformatica fornisce i suddetti strumenti e tecniche che richiedono una buona comprensione dell’ambito del problema. Ora, sorge la domanda che tipo di dati stiamo parlando. Sebbene il formato dei dati sia sequenze di stringhe o espressioni numeriche di geni e proteine, il significato potrebbe variare a seconda della fonte e della perturbazione dei dati. Questi tipi di dati saranno discussi in dettaglio più avanti nell’articolo.

Perché abbiamo bisogno del calcolo quantitativo in bioinformatica?
Sono state condotte quantità significative di ricerca per comprendere le funzioni di base del corpo umano per dedurre come il corpo reagisce alle perturbazioni. Allo scopo, il comportamento delle cellule di un’entità sana rispetto a un’entità perturbata viene confrontato per dedurre la differenza di comportamento che è ingegnoso nello sviluppo di farmaci per affrontare la perturbazione. Tuttavia, i dati prodotti a livello di cella sono altamente dimensionali.

Ad esempio, l’attività di una cellula di un organismo può produrre sequenze che vanno da 450 a 100.000 geni. Quindi, per gestire dati così sensibili, rumorosi e ad alta dimensione , è imperativo implementare strumenti di analisi dei dati che sono stati sviluppati al fine di trovare il modo più ottimizzato di archiviare, analizzare e calcolare questi dati.

Tipi di dati che puoi incontrare in bioinformatica?
Sequenze geniche
La maggior parte dei tipi di dati che si possono incontrare in bioinformatica sono sequenze di acidi nucleici – ACGT – vale a dire, adenina, citosina, guanina e timina. Queste sequenze potrebbero riguardare un gene o l’intero DNA. Sono presenti in coppie di GC, TA, AT e CG, quindi viene registrato solo un lato della sequenza poiché l’altro lato può essere prodotto secondo le loro regole di accoppiamento. Se hai a che fare con sequenze, la maggior parte del tuo lavoro sarà l’identificazione di modelli ripetitivi, il riconoscimento del modello di formazione della proteina in diverse strisce di sequenza e l’individuazione di modelli diversi mentre confronti due strisce di sequenze di una cellula sana e una cellula perturbata.

Espressioni geniche
I dati biologici di ogni essere umano sono codificati nei loro geni, il che funge da guida per come un corpo reagirà a qualsiasi azione. C’è una quantità in eccesso di informazioni che giace nei geni di un individuo ancora da scoprire. Le espressioni geniche si riferiscono ai livelli di RNA messaggero di un gene in un determinato momento e perturbazione.

I loro valori sono numerici e rappresentano la cosiddetta espressione di un gene in un determinato momento. È stato dimostrato biologicamente che in un insieme di geni in una posizione particolare, ci sono pochi geni che vengono indicati come “geni regolatori” e i geni rimanenti sono indicati come “geni bersaglio”. I geni regolatori possono essere etichettati come supervisori che controllano le espressioni di un gene bersaglio. Ad esempio, se X 🡪 Y, significa che il gene X regola il gene Y.

Descrizione grafico generata automaticamente
Figura 2: un esempio di reti di regolazione genica
Sono in corso molte ricerche per trovare queste relazioni normative e target tra i geni. I dati sull’espressione genica soffrono di un problema di alta dimensionalità, noto anche come “maledizione della dimensionalità”, il che significa che il rapporto tra punti dati e caratteristiche dei dati è molto piccolo poiché ci sono migliaia di geni e le loro rispettive espressioni, tuttavia, la registrazione dei punti temporali rientra ancora tra 10-30 punti temporali.

Se stai lavorando con i dati di espressione genica, trascorrerai del tempo principalmente in modelli di rappresentazione di reti di regolazione genica, ottimizzando questi modelli e affrontando la complessità computazionale.

Strumenti e database popolari di data science per la bioinformatica?
Database per bioinformatica
GenBank : database di sequenze genetiche da NCBI
EMBL-EBI : database delle sequenze nucleotidiche
UniProt : database delle sequenze proteiche
Database GEO : profili di espressione genica da NCBI
Atlante di espressione : espressione genica tra specie e condizioni biologiche
I tre principali strumenti / linguaggi di programmazione utilizzati dal biologo di calcolo sono:
Python: BioPython, Biotite, Scikit-Bio, SciPy
R: CROME, InterMineR, rScudo, Repo
Matlab: Bioinformatics Toolbox
Sebbene dipenda abbastanza dal background di un individuo a quale strumento preferiscono adottare, Matlab ha un vantaggio migliore per la visualizzazione.

Da dove cominciare?
Ora, che abbiamo le basi delineate, discutiamo del modo ideale per affrontare un progetto bioinformatico per iniziare.

Passaggio 1: identificare il tipo di dati e la definizione del problema relativo al tipo di dati

Passaggio 2: ricerca sull’inferenza biologica che sottolinea il tipo di dati per migliorare la conoscenza del dominio

Passaggio 3: preparazione dei dati : identificare il database da utilizzare insieme ai punti dati o alle funzionalità dei dati richiesti. Si consiglia di iniziare con piccoli set di dati come una rete IRMA a 5 geni.

Passaggio 4: disporre la soluzione di analisi in pseudocodice per assicurarsi di comprendere la dichiarazione del problema e il suo funzionamento

Passaggio 5: codifica la tua analisi, confronta i risultati con la verità di base e deduci il tuo risultato

La bioinformatica potrebbe essere impegnativa per qualsiasi ricerca con un background non medico, quindi, saltare a soluzioni senza un’adeguata comprensione del problema di fondo aumenterà significativamente la complessità dell’analisi. In questo articolo, abbiamo scalfito la superficie della bioinformatica con un punto di vista di un data scientist intermedio al fine di gettare una buona base per coloro che hanno intrapreso lo sforzo di perseguire la biologia computazionale con un background non medico.

Di ihal