L’8 maggio, Google DeepMind e Isomorphic Words hanno presentato la terza generazione del suo modello di ripiegamento proteico, AlphaFold 3 . Il nuovo modello di intelligenza artificiale ha raggiunto una precisione del 50% nel prevedere la struttura e le interazioni di tutte le molecole biologiche, comprese proteine, DNA, RNA e ligandi, rendendolo il primo sistema di intelligenza artificiale a superare gli strumenti basati sulla fisica per la previsione della struttura biomolecolare.
Tuttavia, insieme ad AlphaFold 3, che ora è disponibile per scopi di ricerca non commerciale, esistono alternative popolari ad AlphaFold. Questi modelli costituiscono la base del processo di scoperta dei farmaci e hanno altri importanti impatti sulle scienze della vita. Diamo un’occhiata alle migliori alternative di AlphaFold 3 nel 2024.
RoseTTAFold
- RoseTTAFold viene addestrato utilizzando sia i dati di sequenza proteica che i dati strutturali, consentendogli di prevedere in modo efficace le strutture proteiche e le loro interazioni.
- Utilizza una combinazione di tecniche di deep learning e metodi bioinformatici tradizionali per migliorare l’accuratezza della previsione.
- Utilizza un’architettura di rete neurale “a tre tracce” che elabora simultaneamente dati mono, bi e tridimensionali sulle proteine.
- Progettato per una rapida previsione della struttura delle proteine, in grado di calcolare strutture in pochi minuti su apparecchiature informatiche standard
- Si concentra maggiormente sull’integrazione di vari tipi di dati (sequenza, interazione e struttura) all’interno della sua rete neurale
- È stato applicato con successo per prevedere numerose strutture proteiche, comprese quelle non ben comprese o direttamente collegate a problemi di salute umana come il cancro e l’infiammazione.
- Fornisce strumenti per modellare complessi biologici e migliorare la comprensione di sistemi biologici sfaccettati.
- I tempi di previsione rapidi lo rendono accessibile per un uso diffuso sia in ambito accademico che clinico.
- Open source e disponibile tramite GitHub .
- Pur essendo estremamente accurato, potrebbe non raggiungere il livello di precisione di AlphaFold in tutti gli scenari, in particolare con proteine estremamente complesse.
OmegaFold
- Addestrato su sequenze proteiche non allineate e senza etichetta.
- Utilizza modelli basati su trasformatori profondi per apprendere le rappresentazioni dei residui.
- Prevede le strutture proteiche da una singola sequenza primaria.
- Utilizza un modello del linguaggio proteico e un modello di trasformatore ispirato alla geometria per le previsioni.
- Adatto per proteine orfane e proteine a rapida evoluzione
- Non si basa su allineamenti di sequenze multiple (MSA), a differenza di altri modelli.
- Meno dipendente da dati evolutivi estesi.
- Ampia applicabilità a vari tipi di proteine.
- Mostra una precisione paragonabile a AlphaFold e RoseTTAFold su set di dati di riferimento come CASP e CAMEO
- Potrebbe dover affrontare sfide nel raggiungimento di una precisione coerente su tutti i tipi di proteine rispetto a modelli come AlphaFold.
I-TASSER
- Impiega più approcci di threading per identificare modelli strutturali da dati proteici noti.
- Costruisce modelli atomici a lunghezza intera utilizzando simulazioni iterative di assemblaggio di frammenti basate su modelli.
- Utilizza un approccio di threading meta-server, LOMETS, per l’identificazione dei modelli.
- Fornisce output completi tra cui modelli previsti, strutture secondarie, accessibilità ai solventi e annotazioni funzionali.
- Noto per ottenere un’elevata precisione nella previsione della struttura, come dimostrato in varie competizioni CASP.
- Genera più modelli consentendo la selezione in base ai punteggi di confidenza.
- Utilizza un approccio iterativo di perfezionamento dell’assemblaggio del threading per la previsione della struttura delle proteine.
- In grado di prevedere le funzioni tramite annotazioni basate sulla struttura.
- Fornisce fino a cinque modelli atomici completi, classificati in base alla densità dei cluster, con stime di precisione, inclusi punteggi TM e RMSD.
Phyre2
- Phyre2 utilizza metodi avanzati di rilevamento dell’omologia per modellare le strutture proteiche in base al loro allineamento con strutture note.
- Sfrutta una combinazione di modelli Markov nascosti ed euristiche per migliorare la copertura della sequenza e la fiducia del modello.
- Utilizza il “threading uno a uno” che consente agli utenti di modellare una sequenza rispetto a un modello specifico di loro scelta, migliorando la precisione quando sono disponibili informazioni biologiche aggiuntive.
- Include strumenti come “BackPhyre” per la scansione delle strutture esistenti rispetto ai genomi e “Phyrealarm” per la corrispondenza continua con le strutture appena aggiunte nel database.
- Integrato con “3DLigandSite” per la previsione del sito di legame ad alta precisione.
- Fornisce un’interfaccia web intuitiva accessibile ai ricercatori senza competenze computazionali approfondite.
- Offre una gamma di strumenti predittivi e analitici che vanno oltre la semplice previsione della struttura.
- Sebbene Phyre2 sia altamente efficace per molte attività comuni di modellazione delle proteine, la sua dipendenza da modelli esistenti può limitarne l’efficacia per proteine altamente nuove o scarsamente caratterizzate rispetto a metodi come AlphaFold, che possono prevedere strutture senza modelli omologhi chiari.
ESMFold
- ESMFold utilizza un modello linguistico basato su Transformer, in particolare il modello ESM-2, che apprende le interazioni tra coppie di amminoacidi in una sequenza proteica.
- ESMFold si basa su un modello Transformer da 15 miliardi di parametri e non si basa su allineamenti di sequenze multiple (MSA), a differenza di modelli come AlphaFold2 che richiedono MSA.
- Può fare previsioni direttamente dalle sequenze di amminoacidi, accelerando significativamente il processo di inferenza.
- ESMFold raggiunge livelli di precisione simili a quelli dei modelli all’avanguardia ma è significativamente più veloce, prevedendo strutture fino a 60 volte più velocemente di AlphaFold2 per determinate sequenze.
- Il modello è stato inoltre progettato per gestire in modo efficiente le previsioni di strutture su larga scala, in grado di prevedere strutture per un milione di sequenze proteiche in meno di un giorno.
- Non richiede database esterni o MSA, semplificando il processo di previsione del ripiegamento delle proteine.
- Dato che Meta ha sciolto il team dietro ESMFold, potrebbe non avere nuove funzionalità a breve.
SWISS-MODEL
- Utilizza modelli di omologia, basandosi su informazioni evolutive per prevedere le strutture proteiche identificando e utilizzando strutture proteiche note come modelli.
- Impiega algoritmi per trovare la migliore corrispondenza tra la sequenza target e i modelli disponibili, ottimizzando l’allineamento per prevedere la struttura.
- Fornisce una piattaforma web intuitiva per la modellazione comparativa automatizzata della struttura delle proteine.
- Integra strumenti per la valutazione e il confronto della struttura, come QMEAN per la stima della qualità del modello.
- Consente agli utenti di esplorare i modelli strutturali in modo interattivo e di visualizzarli in 3D all’interno del browser.
- Gratuito per uso accademico e supporta un’ampia gamma di funzionalità oltre alla modellazione di base.
- Integrato con i principali database biologici e strumenti bioinformatici, migliorando la sua utilità nella ricerca.
- SWISS-MODEL è progettato specificamente per la facilità d’uso, consentendo anche ai non esperti di eseguire la modellazione proteica.
- Supporta un’ampia gamma di funzionalità, tra cui la modellazione di assiemi omo-oligomerici e l’incorporazione di ligandi nei modelli.
- Sebbene sia altamente efficace per le famiglie di proteine conosciute, la sua accuratezza può diminuire per proteine con omologhi meno caratterizzati o più distanti.
Robetta
- Utilizza gli strumenti della suite software Rosetta, combinando metodi di modellazione comparativa (omologia) e previsione della struttura de novo .
- Ha incorporato metodi di deep learning, in particolare RoseTTAFold, che utilizza una rete a tre tracce per la previsione della struttura.
- Offre la previsione della struttura proteica sia basata su modello che de novo.
- Gli utenti possono inserire allineamenti di sequenze personalizzati, applicare vincoli e utilizzare frammenti locali nelle attività di modellazione.
- Include RoseTTAFold, che ne migliora l’accuratezza e la velocità di previsione.
- Robetta consente l’interazione dell’utente nel processo di modellazione, offrendo una personalizzazione che i sistemi automatizzati come AlphaFold in genere non consentono.
- Integra tecniche di machine learning con approcci tradizionali di modellazione comparativa.
- Possono verificarsi tempi di attesa lunghi a causa dell’elevata domanda e dell’intensità computazionale dei metodi di deep learning.
- La precisione può variare in base alla disponibilità e alla qualità dei modelli o all’efficacia della modellazione de novo .
HHPred
- HHpred è un sofisticato strumento bioinformatico per il rilevamento dell’omologia delle proteine e la previsione della struttura sviluppato dal gruppo dell’Istituto Max Planck per la biologia dello sviluppo.
- Sfrutta metodi di confronto profilo-profilo, che sono tra le tecniche di ricerca di sequenze più sensibili.
- I profili vengono creati da allineamenti multipli di sequenze correlate, migliorando la precisione del rilevamento dell’omologia.
- Implementa il confronto a coppie dei modelli Markov nascosti del profilo (HMM), rendendolo altamente efficace per il rilevamento di omologhi remoti.
- In grado di effettuare ricerche in una vasta gamma di database tra cui PDB, SCOP, Pfam, SMART, COG e CDD.
- HHpred è unico nel suo utilizzo di HMM sia per le query che per le sequenze del database, consentendo un rilevamento più sensibile delle omologie rispetto ai metodi basati sui confronti sequenza-sequenza.
- Fornisce allineamenti dettagliati e la possibilità di prevedere strutture 3D tramite MODELLATORE se viene trovato un modello adatto.
- Altamente sensibile nel rilevare l’omologia, anche tra proteine lontanamente correlate.
- Si integra con più database e consente un’analisi completa su diverse origini dati.
- Sebbene potente, la complessità della sua configurazione e la necessità di allineamenti specifici possono rappresentare sfide per gli utenti meno esperti.
AlphaFold-Multimer
- AlphaFold-Multimer utilizza algoritmi di deep learning addestrati su dati disponibili al pubblico di strutture proteiche conosciute. Ciò include la formazione specifica per input multimerici per migliorare la precisione delle previsioni di interfaccia tra diverse catene proteiche.
- Costruito su AlphaFold2, è progettato per affrontare la complessa previsione delle interazioni proteina-proteina, che implica la comprensione di come più catene proteiche si incastrano insieme.
- A differenza del suo predecessore, che prevede principalmente la struttura delle singole catene proteiche, AlphaFold-Multimer prevede le interazioni tra catene e la disposizione delle proteine in un complesso.
- Raggiunge un’elevata precisione nella previsione dell’interfaccia, che è fondamentale per l’analisi funzionale delle proteine nel loro contesto biologico.
- Aumenta la portata della previsione della struttura proteica accessibile dal punto di vista computazionale per includere assiemi complessi.
- La richiesta computazionale è elevata, il che potrebbe limitare l’accessibilità per alcuni ricercatori che non hanno accesso a risorse informatiche significative.
CollabFold
- Utilizza i modelli addestrati esistenti di AlphaFold2 e RoseTTAFold e li combina con MMseqs2 per un rapido allineamento delle sequenze e una migliore precisione della previsione.
- Integra AlphaFold2 e RoseTTAFold con MMseqs2 per un rapido allineamento di sequenze multiple, accelerando significativamente le previsioni sulla struttura delle proteine.
- Funziona come un ambiente facile da usare, basato su notebook su Google Colab, rendendo accessibile la modellazione proteica avanzata senza richiedere installazione o hardware di fascia alta.
- Capace di prevedere quasi un migliaio di strutture al giorno con una singola GPU.
- A differenza di AlphaFold2 autonomo che richiede risorse computazionali più estese, ColabFold ottimizza l’utilizzo delle risorse tramite Google Colab, rendendolo accessibile a un pubblico più ampio.
- La sua integrazione con MMseqs2 accelera il processo di ricerca dell’omologia, rendendolo molto più veloce rispetto ai metodi tradizionali.
- Dipende dalle risorse di Google Colab, che può limitare la dimensione delle proteine analizzate a causa dei limiti di memoria sulle GPU disponibili.
- Sebbene offra velocità e accessibilità significative, la precisione per strutture estremamente complesse potrebbe ancora essere inferiore a configurazioni più dispendiose in termini di risorse.