banner
Casa / Blog / Previsione di splicing aberrante nei tessuti umani
Blog

Previsione di splicing aberrante nei tessuti umani

Jun 09, 2023Jun 09, 2023

Nature Genetics volume 55, pagine 861–870 (2023) Citare questo articolo

Accessi 14k

2 citazioni

171 Altmetrico

Dettagli sulle metriche

Lo splicing aberrante è una delle principali cause di malattie genetiche, ma la sua rilevazione diretta nei trascrittomi è limitata ai tessuti clinicamente accessibili come la pelle o i fluidi corporei. Sebbene i modelli di apprendimento automatico basati sul DNA possano dare la priorità a varianti rare per influenzare lo splicing, le loro prestazioni nel prevedere lo splicing aberrante specifico del tessuto rimangono non valutate. Qui abbiamo generato un set di dati di riferimento sullo splicing aberrante, che copre oltre 8,8 milioni di varianti rare in 49 tessuti umani dal set di dati Genotype-Tissue Expression (GTEx). Con un richiamo del 20%, i modelli all'avanguardia basati sul DNA raggiungono una precisione massima del 12%. Mappando e quantificando l'utilizzo del sito di giunzione tessuto-specifico a livello del trascrittoma e modellando la competizione tra isoforme, abbiamo aumentato la precisione di tre volte con lo stesso richiamo. L'integrazione dei dati di sequenziamento dell'RNA di tessuti clinicamente accessibili nel nostro modello, AbSplice, ha portato la precisione al 60%. Questi risultati, replicati in due coorti indipendenti, contribuiscono sostanzialmente all'identificazione di varianti con perdita di funzione non codificante e alla progettazione e all'analisi della diagnostica genetica.

L'identificazione delle varianti del DNA con perdita di funzione non codificante rappresenta un grave collo di bottiglia nell'interpretazione dell'intero genoma, poiché è difficile prevedere la funzione al di fuori delle regioni codificanti1. Le varianti che alterano lo splicing rappresentano un'importante classe di varianti con perdita di funzione non codificante perché possono portare a isoforme di RNA drasticamente alterate, ad esempio, inducendo frameshift o ablazioni di domini proteici funzionalmente importanti. Se la variante altera fortemente la scelta dell'isoforma di splicing, l'abbondanza rimanente di isoforme di RNA funzionali può essere ridotta a tal punto da perdere la funzione del gene. Data l'importanza dello splicing per l'interpretazione delle varianti, in particolare nella diagnostica delle malattie rare e in oncologia, sono stati sviluppati algoritmi per prevedere se le varianti influenzano lo splicing2,3,4,5,6,7,8,9. Tuttavia, solo di recente, nei tessuti umani sono stati segnalati eventi di splicing aberranti, ovvero rare e grandi alterazioni nell'utilizzo delle isoforme di giunzione10,11,12. Sebbene sia stato proposto un metodo per dare priorità a posteriori alle varianti rare causali candidate per gli eventi di splicing aberranti osservati12, il problema successivo, cioè prevedere tra le varianti rare quali si tradurranno in splicing aberrante, non è stato affrontato.

Qui, abbiamo deciso di stabilire modelli che prevedano se una variante rara si associa a uno splicing aberrante in un dato tessuto umano. Innanzitutto, abbiamo presupposto che fosse disponibile solo il DNA e in seguito abbiamo considerato ulteriormente i dati complementari di sequenziamento dell'RNA (RNA-seq) di tessuti clinicamente accessibili (CAT) (Fig. 1).

Abbiamo deciso di prevedere se varianti rare si associano a splicing aberrante in 49 tessuti umani. a, Abbiamo stabilito un punto di riferimento completo per lo splicing aberrante elaborando campioni GTEx con un chiamante di splicing aberrante recentemente pubblicato10 in base al quale potremmo valutare e sviluppare predittori che potrebbero prendere come input la sequenza del DNA e, facoltativamente, i dati RNA-seq dei CAT. b, Il benchmarking ha rivelato prestazioni modeste degli algoritmi attualmente utilizzati basati solo sul DNA, un sostanziale miglioramento delle prestazioni quando si integrano questi modelli con SpliceMap, una mappa quantitativa dello splicing tessuto-specifico che abbiamo sviluppato in questo studio e ulteriori miglioramenti includendo anche misure dirette di aberranti splicing nei tessuti accessibili.

Abbiamo creato un benchmark utilizzando il chiamante di splicing aberrante FRASER (Find RAre Splicing Events in RNA-seq)10 su 16.213 campioni di RNA-seq del set di dati Genotype-Tissue Expression (GTEx), che comprende 49 tessuti e 946 individui. Rispetto ad altri metodi di rilevamento di valori anomali di splicing11,12, FRASER ha costantemente mostrato il massimo accordo con i predittori basati su sequenze ed è stato quindi successivamente utilizzato per le nostre valutazioni (Dati estesi, Fig. 1). Per ogni individuo, abbiamo considerato ogni gene codificante proteina portante almeno una variante rara (frequenza allelica minore (MAF) inferiore allo 0,1% in base al database di aggregazione del genoma (gnomAD)13 e trovata in non più di due individui su GTEx) e impostato per prevedere in quale tessuto, se presente, questo gene è impiombato in modo aberrante. Abbiamo definito un gene da splicing aberrante in un campione se è stato chiamato come valore anomalo di splicing significativo a livello del trascrittoma e con un'ampiezza sufficiente (percentuale differenziale di splicing (Ψ) maggiore di 0,3); Metodi e vedere Dati estesi Fig. 1 per risultati con cut-off alternativi). Studi precedenti avevano riferito che fino al 75% degli eventi di splicing aberrante nei campioni di RNA-seq GTEx non sono replicati nei tessuti10,12 e quindi possono riflettere artefatti tecnici o splicing aberrante che non è determinato geneticamente. Abbiamo quantificato l'arricchimento di valori anomali di splicing replicati attraverso i tessuti dello stesso individuo rispetto alla distanza dalla variante rara più vicina e abbiamo scoperto che erano arricchiti fino a una distanza di 250 paia di basi (bp) (Dati estesi Fig. 2). Pertanto, abbiamo anche richiesto che una variante rara fosse a meno di 250 bp di distanza dai confini di qualsiasi introne associato al sito di giunzione aberrante (Metodi e dati estesi Fig. 3). Questo filtro ha prodotto risultati simili al filtraggio per eventi aberranti replicati con l'ulteriore vantaggio di essere applicabile a coorti indipendenti che hanno un singolo campione per individuo (Dati estesi Fig. 4).

 0.8, MMSplice score > 2 (absolute score) and an AbSplice-DNA score > 0.2 in at least one tissue. Asterisks mark significance levels of two-sided Fisher tests of AbSplice-DNA compared with SpliceAI (*<0.05, **<10−4, ***<10−8). NS, not significant./p> 0.3) and then by significance level. This simple method yielded a markedly increased precision compared with the DNA-based models, up to nearly 40% recall (Fig. 5c and Extended Data Fig. 10a). However, RNA-based predictions remain limited to those splice sites expressed and spliced in the CAT. Therefore, we next trained models integrating AbSplice-DNA features together with RNA-seq-based features from CATs, including differential splicing amplitude estimates to leverage the splicing scaling law and the SpliceMaps (Methods). These models, which we call AbSplice-RNA, outperformed all other models (Fig. 5c and Extended Data Fig. 10a). We found that using fibroblasts only led to the same performance as using all CATs, reaching around 60% precision at 20% recall and amounting to a twofold improvement over AbSplice-DNA (Fig. 5c and Extended Data Fig. 10b). Those improvements were consistent across target tissues (Fig. 5d). As expected, AbSplice-RNA outperformed AbSplice-DNA for genes expressed in CATs and remained on par with it otherwise (Extended Data Fig. 10c). Altogether, these results establish a formal way to integrate direct measurements of aberrant splicing along with sequence-based models to predict aberrant splicing in a tissue of interest./p> 0.3). The same filters were applied to the splicing efficiency metrics./p> 0.3) lower than the remaining genes, and further ranked genes within each of these two groups by increasing P value./p>

 0.3, FDR < 0.05, 126,308 aberrant events) b, Filter 2: same as a, but restricting to genes that are aberrantly spliced in at least two different tissues from the same individual (32,886 aberrant events). c, Filter 3: same as a, but restricting to genes that have a rare variant within 250 bp of the splice sites (22,766 aberrant events). While the results are best with Filter 3, the relative improvements in terms of precision at the same recall between the methods is the same as with Filter 2. In particular, having restricted to variants 250 bp away from any detected split read boundary (Filter 3) did not bias our analysis for the splice-site centric method MMSplice over SpliceAI. d, After applying Filter 3, outliers were stratified into ‘replicated’ (14,030 aberrant events), that is appearing in at least two different tissues of the same individual, and ‘not replicated’ (8,736 aberrant events). All models showed a significantly higher performance for aberrant splicing events replicated in two or more samples compared to those reported in a single sample only./p> 0.3) across tissues./p> 1 (transcript per million). AbSplice-RNA improves for genes expressed in fibroblasts and remains on par with AbSplice-DNA for genes not expressed in fibroblasts./p>