banner
Casa / Notizia / Un framework automatizzato per la valutazione di modelli di deep learning per le previsioni dei siti di giunzione
Notizia

Un framework automatizzato per la valutazione di modelli di deep learning per le previsioni dei siti di giunzione

Sep 13, 2023Sep 13, 2023

Rapporti scientifici volume 13, numero articolo: 10221 (2023) Citare questo articolo

955 accessi

2 Altmetrico

Dettagli sulle metriche

Viene presentato un nuovo framework per la valutazione automatizzata di vari rilevatori di siti di giunzione basati sul deep learning. Il framework elimina le attività di sviluppo e sperimentazione dispendiose in termini di tempo per diverse basi di codice, architetture e configurazioni per ottenere i migliori modelli per un determinato set di dati del sito di giunzione dell'RNA. Lo splicing dell'RNA è un processo cellulare in cui i pre-mRNA vengono trasformati in mRNA maturi e utilizzati per produrre più trascrizioni di mRNA da una singola sequenza genetica. Dall'avanzamento delle tecnologie di sequenziamento, molte varianti del sito di giunzione sono state identificate e associate alle malattie. Pertanto, la previsione del sito di giunzione dell’RNA è essenziale per la ricerca del gene, l’annotazione del genoma, le varianti che causano malattie e l’identificazione di potenziali biomarcatori. Recentemente, i modelli di deep learning hanno funzionato in modo estremamente accurato per classificare i segnali genomici. La rete neurale convoluzionale (CNN), la memoria a breve termine (LSTM) e la sua versione bidirezionale (BLSTM), l'unità ricorrente recidivante (GRU) e la sua versione bidirezionale (BGRU) sono modelli promettenti. Durante l'analisi dei dati genomici, la funzione di località della CNN aiuta a individuare la correlazione di ciascun nucleotide con le altre basi nelle sue vicinanze. Al contrario, BLSTM può essere addestrato in modo bidirezionale, consentendo l'elaborazione di dati sequenziali dalle direzioni avanti e indietro. Pertanto, può elaborare efficacemente i dati genomici codificati 1-D. Anche se in letteratura sono stati utilizzati entrambi i metodi, mancava un confronto delle prestazioni. Per confrontare modelli selezionati in condizioni simili, abbiamo creato un progetto per una serie di reti con cinque diversi livelli. Come caso di studio, abbiamo confrontato le capacità di apprendimento dei modelli CNN e BLSTM come elementi costitutivi per la previsione del sito di giunzione dell'RNA in due diversi set di dati. Nel complesso, la CNN ha ottenuto risultati migliori con \(92\%\) precisione (miglioramento del \(6\%\), \(89\%\) punteggio F1 (miglioramento del \(8\%\)) e \(96\ %\) AUC-PR (miglioramento del \(4\%\)) nella previsione del sito di giunzione umana. Allo stesso modo, una prestazione superiore con \(96\%\) precisione (\(11\%\) miglioramento), \(94\%\) punteggio F1 (\(16\%\) miglioramento) e \(99\ %\) AUC-PR (miglioramento del \(7\%\)) viene ottenuto nella previsione del sito di giunzione di C. elegans. Nel complesso, i nostri risultati hanno mostrato che la CNN apprende più velocemente di BLSTM e BGRU. Inoltre, la CNN ha prestazioni migliori nell’estrarre modelli di sequenze rispetto a BLSTM e BGRU. A nostra conoscenza, nessun altro framework è stato sviluppato esplicitamente per valutare i modelli di rilevamento delle giunzioni per decidere il miglior modello possibile in modo automatizzato. Pertanto, il quadro proposto e il progetto aiuterebbero a selezionare diversi modelli di deep learning, come CNN vs. BLSTM e BGRU, per l’analisi dei siti di giunzione o attività di classificazione simili e in diversi problemi.

Gli sforzi di annotazione del genoma umano beneficiano dei recenti progressi nel sequenziamento dell'RNA e negli studi di trascrittomica, mentre il rilevamento dei siti di giunzione è diventato una questione di ricerca significativa. Tuttavia, non esistono linee guida per selezionare il modello migliore per questo compito. Qui presentiamo un nuovo framework per la valutazione automatizzata di vari rilevatori di siti di giunzione basati sul deep learning. Il framework elimina lo sviluppo dispendioso in termini di tempo fornendo esperimenti automatizzati per diversi modelli, architetture e configurazioni per ottenere il modello migliore per un determinato set di dati del sito di giunzione dell'RNA. L'identificazione della posizione precisa è una sfida fondamentale nelle annotazioni del genoma umano. Pertanto, determinare i confini esone-introne dei geni è essenziale per identificare la struttura del gene. I siti di giunzione determinano i confini esone-introne e introne-esone che regolano lo splicing dell'RNA, un processo di modificazione post-traduzionale che converte le molecole di pre-mRNA in mRNA maturi.

Inoltre, è possibile ottenere mRNA alternativi dalla stessa sequenza genetica attraverso il processo noto come splicing alternativo. Pertanto, il corretto riconoscimento del sito di giunzione è fondamentale per la corretta formazione della struttura proteica. I siti di giunzione sono tipicamente composti da quattro nucleotidi conservati: la sequenza donatrice GT (GU per pre-mRNA) al 5′ (ai confini esone-introne) e la sequenza accettrice AG all’estremità 3′ (ai confini introne-esone ) come in Fig. 11. I siti di giunzione che contengono sequenze GT-AG sono chiamati siti di giunzione canonici. Allo stesso modo, i siti di giunzione non contengono dimeri GT-AG chiamati siti di giunzione non canonici.