Cosa è il “coverage”?
Sebbene il significato del termine coverage possa sembrare molto semplice, spesso questo termine viene utilizzato impropriamente.
Nell’ambito della Next-Generation Sequencing, il coverage indica il numero medio di reads che “coprono” una determinata regione target di riferimento. Il coverage descrive quindi sempre una relazione tra il numero di reads e una regione di riferimento e può essere espresso in termini di percentuale o di copertura media (e.g. 100X significa che in media le regioni target sono coperte da 100 reads). Bisogna fare attenzione a non confondere il coverage con la sequencing depth che descrive invece il numero di reads totali prodotte dal sequenziamento in termini assoluti e la reads depth che descrive il numero di reads che coprono ogni singola base.
Qual è il coverage ottimale per il sequenziamento?
Non esiste una risposta univoca a questa domanda. Il coverage necessario alla riuscita dell’analisi è influenzato da numerosi fattori quali: (1) la lunghezza delle reads, (2) la dimensione del genoma di riferimento, (3) l’applicazione specifica di interesse, (4) l’error rate della tecnologia utilizzata, (5) i livelli di espressione del gene e (6) la complessità delle regioni target. Per questo, molto spesso è necessaria una fase iniziale sperimentale che serve a stabilire il coverage ottimale per la propria analisi, sfruttando come dato di partenza i dati presenti in letteratura per esperimenti clinici e le indicazioni della comunità scientifica.
E nel caso della diagnostica clinica basata su NGS?
Anche in questo caso non esiste una risposta universale. Quando si utilizza l’NGS per la diagnostica clinica bisogna tenere in considerazione che è necessario avere osservazioni multiple per singola base, per avere una chiamata affidabile. Verrebbe da dire più alto è il coverage meglio è, ma bisogna però tenere in considerazione il rapporto costo-risultato. Un coverage molto alto è spesso associato ad un costo elevato dell’analisi che diventa insostenibile.
Qual è dunque il miglior rapporto costo-risultato?
Anche se ad oggi non esistono delle linee guida ufficiali che stabiliscono il coverage medio per un’analisi diagnostica, la comunità scientifica condivide dei parametri di coverage abbastanza universali, che dipendono dall’applicazione di interesse. In generale si utilizza:
- WGS (whole genome sequencing): coverage raccomandato 30X-50X;
- WES (whole exome sequencing): coverage raccomandato 80-180X;
- ChiP-Seq (ChiP sequencing): coverage raccomandato 100X;
Questi parametri permettono in linea generale di superare gli errori tecnici dovuti al metodo di sequenziamento, ridurre i falsi negativi e ottenere dei dati biologici affidabili.
Le eccezioni
Esistono tuttavia alcune applicazioni, come la ricerca di mutazioni a bassa frequenza, che richiedono un coverage medio maggiore. Le mutazioni a bassa frequenza sono mutazioni che non seguono la genetica classica mendeliana e possono essere riscontrate ad esempio in casi di mosaicismo somatico o germinale e nello studio di tumori (mutazioni clonali e subclonali). Anche il sequenziamento del DNA mitocondriale richiede coverage più alti, a causa dell’esistenza dell’eteroplasmia.
Anche in questi casi non esiste ancora un parere univoco e ogni laboratorio adatta i suoi protocolli per poter ottenere i migliori risultati. In generale, il coverage va da un minimo di 250X fino ad un massimo superiore a 1300X a seconda dello scopo e della tecnologia utilizzata.
Alcune applicazioni viaggiano controcorrente…
Con l’avanzare della tecnologia e l’avvento delle tecniche di sequenziamento di terza generazione, vi sono sempre più evidenze che per alcune applicazioni, come la ricerca delle Copy Number Variant (CNV) o delle varianti strutturali, è possibile utilizzare tecniche con un coverage molto basso (persino al di sotto di 10X). Tecniche come il low-depth nanopore sequencing e il Low-Pass Genome Sequencing sono in grado di identificare le CNV con un’alta sensibilità, tanto che recentemente il Low-Pass Genome Sequencing è stato proposto come metodo validato per la citogenetica clinica, con una resa diagnostica persino superiore al chromosomal microarray analysis.
Citazioni
https://genohub.com/recommended-sequencing-coverage-by-application/
Deng C, Daley T, Calabrese P, Ren J, Smith AD. Predicting the Number of Bases to Attain Sufficient Coverage in High-Throughput Sequencing Experiments. J Comput Biol. 2020 Jul;27(7):1130-1143. doi: 10.1089/cmb.2019.0264. Epub 2019 Nov 15. PMID: 31725321
Tham CY, Tirado-Magallanes R, Goh Y, Fullwood MJ, Koh BTH, Wang W, Ng CH, Chng WJ, Thiery A, Tenen DG, Benoukraf T. NanoVar: accurate characterization of patients’ genomic structural variants using low-depth nanopore sequencing. Genome Biol. 2020 Mar 3;21(1):56. doi: 10.1186/s13059-020-01968-7. PMID: 32127024;
Petrackova A, Vasinek M, Sedlarikova L, Dyskova T, Schneiderova P, Novosad T, Papajik T, Kriegova E. Standardization of Sequencing Coverage Depth in NGS: Recommendation for Detection of Clonal and Subclonal Mutations in Cancer Diagnostics. Front Oncol. 2019 Sep 4;9:851. doi: 10.3389/fonc.2019.00851. PMID: 31552176
Chau MHK, Wang H, Lai Y, Zhang Y, Xu F, Tang Y, Wang Y, Chen Z, Leung TY, Chung JPW, Kwok YK, Chong SC, Choy KW, Zhu Y, Xiong L, Wei W, Dong Z. Low-pass genome sequencing: a validated method in clinical cytogenetics. Hum Genet. 2020 Nov;139(11):1403-1415. doi: 10.1007/s00439-020-02185-9. Epub 2020 May 25. PMID: 32451733.
Sims D, Sudbery I, Ilott NE, Heger A, Ponting CP. Sequencing depth and coverage: key considerations in genomic analyses. Nat Rev Genet. 2014 Feb;15(2):121-32. doi: 10.1038/nrg3642. PMID: 24434847.