Analisi del genoma (whole genome sequencing)

Sequenziamento completo del DNA umano

L’analisi del genoma intero (Whole-Genome Sequencing – WGS) consta nel sequenziamento dell’intero genoma, cioè di tutto quanto il DNA contenuto nel nucleo cellulare (3 miliardi di nucleotidi). Con questa metodica il patrimonio genetico di un individuo viene completamente sequenziato, sia nelle sue regioni codificanti che in quelle non codificanti. Come tale, dunque, il sequenziamento del genoma include il sequenziamento dell’intero esoma (cioè di tutte le regioni codificanti di ogni gene, dette esoni) e di tutte le regioni intergeniche, cioè le sequenze interposte fra un gene e l’altro e che, da un punto di vista quantitativo, rappresentano la strangrande maggioranza del DNA (ben il 98%).

Studio delle varianti del genoma intero

Ad un’analisi del genoma intero viene di norma rilevata un’enorme quantità di varianti (il file di un paziente può essere grande fino a 100-300 GB). La maggior parte di queste varianti è costituita da polimorfismi (varianti non patogene che definiscono semplicemente la variabilità fenotipica interindividuale), mentre un’esigua minoranza è costituita da varianti patogene, che possono essere presenti anche in soggetti sani, determinando semplicemente lo stato di portatore sano (si stima che ognuno di noi sia portatore sano di almeno 30 patologie genetiche a trasmissione autosomica recessiva). L’analisi del genoma intero in un soggetto affetto da patologia genetica risulta particolarmente laborioso, sebbene clinicamente assai utile, poiché l’interpretazione del significato di moltissime delle varianti rilevate, specialmente quando risultino localizzate in regioni introniche o intergeniche, risulta notevolmente difficile.

È da notare che, in alcuni fonti, la sigla WGS viene utilizzata non come acronimo di Whole Genome Sequencing, ma come acronimo di Whole-Genome Shotgun. Il significato è lo stesso, semplicemente viene posto l’accento sull’approccio seriale e veloce della metodica (shotgun significa appunto mitragliatrice).

Differenza fra analisi del genoma e analisi dell’esoma

Qual’ è la differenza fra analisi del genoma e analisi dell’esoma? Un gene è costituito dall’alternarsi di regioni codificanti (dette esoni) e regioni non codificanti (dette introni). Fra un gene e l’altro esistono lunghissime regioni non codificanti, dette regioni intergeniche che, da sole, costituiscono la stragrande maggioranza del DNA (il 98% circa).

L’analisi dell’esoma consta nel sequenziamento dei soli geni nell’interezza di tutti i loro esoni, delle parti introniche che confinano con gli esoni e talora – ma non necessariamente – delle regioni regolatorie a monte e a valle del gene (dette rispettivamente 5′-UTR e 3′-UTR, lunghe da alcune centinaia ad alcune migliaia di nucletodi), allo scopo di identificare mutazioni esoniche (missenso, nonsenso, frame shifing, in frame o regolatorie) o mutazioni introniche che impattino il processo di formazione del messaggero maturo (mutazioni di splicing). Si stima che questo tipo di mutazioni copra l’85% dell’intero spettro mutazionale umano (si pensa cioè che l’85% di tutte le mutazioni-malattia ricada proprio nell’esoma, che costituisce solo il 2% del DNA umano). Per ulteriori informazioni sull’analisi dell’esoma potete leggere qui.

L’analisi del genoma consta invece nel sequenziamento totale del DNA e comprende dunque: tutti gli esoni, tutti gli introni e tutte le regioni intergeniche interposte fra un gene e l’altro. Sebbene si stimi che l’85% delle mutazioni-malattia cada all’iterno dell’esoma, alcune mutazioni patogene possono cadere anche in regioni introniche profonde (ad esempio, ne sono state descritte alcune nelle distrofie retiniche) o in regioni a monte o a valle dei geni a volte non evidenziabili all’analisi dell’esoma. Si pensi, ad esempio, che una delle mutazioni patogene più frequenti nell’amaurosi congenita di Leber è localizzata in una regione intronica profonda non coperta dalla maggior parte dei kit di analisi dell’esoma (mutazione c.2991+1655A>G nel gene CEP290). Ancora rarissime sembrano essere le mutazioni che cadono nelle regioni intergeniche profonde.

Analisi delle CNV

Dal punto di vista diagnostico, una differenza sostanziale fra analisi dell’esoma e analisi del genoma è che, sui dati di sequenziamento del genoma, è possibile effettuare anche lo studio delle grandi delezioni/duplicazioni (detto anche studio delle Copy Number Variations o CNV), che sono un tipo di mutazioni solitamente non evidenziabili al sequenziamento standard (nemmeno tramite metodica Sanger). Talora è possible effettuare lo studio CNV anche sui dati dell’esoma, ma tale opzione dipende dal laboratorio, poiché per l’analisi CNV su esoma è necessario avere in database numerosi campioni, mentre l’analisi CNV su genoma è possibile anche con il solo campione del paziente.

Metodiche di analisi

L’analisi del genoma intero è stata resa possibile dall’avvento della Next Generation Sequencing (NGS) che, rispetto al tradizionale metodo Sanger, consente di sequenziare quantità di DNA notevolmente maggiori a costi decisamente inferiori e con livelli di sensibilità e specificità ormai sovrapponibili (è tuttavia curioso sottolineare come il Progetto Genoma Umano, che portò al completamento della sequenza dell’intero genoma umano nei primi anni 2000, fosse basato esclusivamente sulla tecnologia Sanger – il progetto era in effetti finanziato con ingenti capitali pubblici e privati).

Nella NGS il DNA originario dell’individuo viene rotto in numerosissimi piccoli frammenti tramite un processo di frammentazione (DNA shearing) di tipo meccanico (tramite sonicazione – Covaris) o enzimatico. Ai frammenti ottenuti vengono poi aggiunte delle piccole sequenze di sintesi (dette adaptors), al fine di costruire la cosidetta sequencing library (libreria di sequenziamento). I frammenti della  libreria vengono quindi sequenziati fino ad ottenere numerose copie complementari per ogni frammento (dette reads), che vengono poi allineate con le sequenze di riferimento (reference sequences) presenti nei database fino a ricostituire l’intera sequenza del genoma dell’individuo analizzato come in un puzzle. Produttori diversi offrono macchinari in grado di arrivare al sequenziamento del genoma umano completo, con tempi e costi variabili. Fra i più diffusi e più robusti vi sono i sistemi Illumina X five e X ten e il nuovissimo sistema Illumina Novaseq. Vi sono poi piattaforme ThermoFischer (Ion Proton), PacBio, Complete Genomics (Revolocity Supersequencer), ecc.

Coverage

Un parametro fondamentale di tutte le analisi NGS è il coverage (o, più correttamente, coverage depth), cioè il livello di profondità di lettura. Per ogni frammento della libreria di sequenziamento è infatti possibile ottenere un numero variabile di reads. Maggiore è il numero di reads ottenute per ogni frammento e maggiore è la sensibilità e la specificità dell’analisi. Nel sequenziamento dell’esoma a fini diagnostici il coverage standard richiesto è 100x (si punta cioè ad ottenere 100 reads in paired-end sequencing – 50 in un senso, 50 nel senso opposto – per ogni frammento). In sostanza è come se si “leggesse” il frammento almeno 100 volte. Nel sequenziamento del genoma intero a scopo diagnostico è solitamente sufficiente raggiungere un coverage di 30x. Nel sequenziamento del genoma è sufficiente un coverage inferiore, perché non si rende necessario compensare alle differenze di resa che normalmente si hanno come conseguenza della fase di arricchimento (enrichment) necessaria nell’analisi dell’esoma.

Breda Genetics

Breda Genetics offre di routine l’analisi del genoma intero, che viene normalmente svolto su piattaforma Illumina X ten (e, in previsione, su piattaforme NovaSeq) in collaborazione con alcuni dei maggiori centri di sequenziamento al mondo. L’analisi è disponibile nelle varianti GENOME FULL (analisi in toto di tutti i dati con prioritizzazione delle varianti sulla base dell’informazione clinica ed eventuale analisi CNV, particolarmente indicata nei casi di pazienti sindromici e non sindormici con diagnosi clinica ignota), GENOME PANEL (analisi di un pannello di geni, nei quali sia particolarmente importante analizzare anche le regioni introniche profonde, come ad esempio nelle distrofie retiniche).

Posted in Academia, Biologia Molecolare, Genetica Medica, Ultimo Aggiornamento and tagged , , , , , , .

2 Comments

  1. Buongiorno,
    mi piacerebbe sapere quanto costa effettuare l’analisi dell’intero genoma e quella dell’esoma.
    Inoltre vorrei cortesemente sapere se codificando il genoma (o l’esoma) otteniamo solo uno dei due alleli oppure tutti e due.
    Vi ringrazio in anticipo per la disponibilità.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *