Analisi dell’esoma (exome sequencing)

Per fare lo screening delle regioni codificanti

Doppia elica di DNA nelle mani di un medico

Exome Sequencing è un termine che identifica il sequenziamento delle regioni codificanti (esoni) dei geni di un individuo. Esiste una differenza fra Whole Exome Sequencing (WES), che comprende tutti i 20.000 e passa geni del genoma umano, e Clinical Exome Sequencing (CES), che comprende tutti i geni fino ad ora noti per essere associati a malattia (circa 6.000). Per ulteriori dettagli sulle differenze e sulle raccomandazioni su quale dei due esomi convenga eseguire si rimanda alle relative pagine del nostro Technohub.

La storia

Fino a pochi anni fa il test genetico per eccellenza consisteva nel sequenziamento di singolo gene (o di un ristretto pannello di geni) tramite la metodica dell’elettroforesi capillare (più comunemente nota come sequenziamento Sanger). L’avvento delle nuove tecnologie di sequenziamento (Next Generation Sequencing – NGS e Third Gen Sequencing) ha invece trasformato lo studio della genetica delle malattie umane portando ad un’epoca di produttività senza precedenti. Grazie ai costi e ai tempi ridotti, tramite NGS è possibile analizzare un elevato numero di frammenti di DNA in parallelo fino ad ottenere la sequenza di molti geni in contemporanea o addirittura dell’intera regione codificante di un individuo. Ciò è di estremo interesse sia per la dignostica di routine che per la ricerca scientifica. Infatti, anche se la regione codificante rappresenta soltanto l’1% di tutto il genoma, si stima che fino all’85% di tutte le mutazioni patogene siano contenute in questa regione. L’exome sequencing è ad esempio utile in quei casi in cui manchi una diagnosi clinica precisa o nel caso di malattie geneticamente eterogenee, i cui geni non sono ancora del tutto noti. Si tratta spesso di pazienti che rimangono privi di diagnosi genetica anche dopo l’esecuzione di molti test, sia di citogenetica (cariotipo, FISH) che di genetica molecolare (array-CGH, sequenziamento di un numero limitato di geni).

Non tutte le analisi dell’esoma sono identiche. Come sopra detto, la prima grande differenza è fra analisi dell’esoma intero (whole exome sequencing – WES) e analisi dell’esoma clinico (clinical exome sequencing – CES). Esistono però delle grandi differenze anche all’interno di queste due categorie. Esistono infatti analisi WES da 33, 38, 54 o 64 Megabasi, che comprendono un numero crescente di regioni quali ad esempio le regioni regolatorie non tradotte (5′-UTR e 3′-UTR) e un numero variabile di nucleotidi intronici al confine esone/introne. Nell’ambito CES si distinguono, invece, analisi che comprendono un numero variabile da 4.800 a 6.000 geni circa.

Portfolio Breda Genetics

Breda Genetics offre uno dei più articolati portfolio di analisi dell’esoma ad uso medico, potendo fornire qualsiasi livello di copertura e risoluzione. Per il WES tendiamo a proporre soluzioni ad elevata copertura del tipo EXOME 33MB TRIO (che comprende l’esoma completo di figlio, padre e madre) o EXOME 50MB per le analisi di tipo singleton (paziente singolo). In ambito CES eseguiamo solo ed esclusivamente l’analisi a copertura maggiore, cioè quella da 6.000 geni (EXOME 15MB). Per ulteriori informazioni potete leggere qui.

Applicazioni dell’analisi dell’esoma

1. Diagnostica della patologia Mendeliana

L’approccio tradizionale alla ricerca delle malattie mendeliane è sempre stato lo studio di linkage seguito dalla tecnica del clonaggio posizionale. Questo approccio presenta tuttavia notevoli difficoltà, principalmente legate alla necessità di dover testare più di una famiglia (impresa non facile per malattie rare o rarissime) e eterogeneità genetica che talora caratterizza certe patologie mendeliane (si pensi, ad esempio, a sindromi come quella di Bardet-Biedl, di Joubert o di Kallmann, che possono essere causate da mutazioni in geni diversi) che rende quasi impossibile identificare il gene chiave quando gli studi debbano limitarsi a poche famiglie. L’exome sequencing, invece, screenando a tappeto la sequenza codificante, permette di identificare subito varianti patogene o verosimilmente patogene. I geni coinvolti nella patogenesi della sindrome di Kabuki e di Miller, ad esempio, sono stati identificati grazie a studi di exome sequencing. Basti pensare che solo negli ultimi tre anni sono stati scoperti, tramite exome sequencing, i geni di più di 100 malattie Mendeliane!

2. Studio della patologia multifattoriale

Negli ultimi anni l’approccio tradizionale allo studio genetico delle malattie multifattoriali (cioè quelle malattie che si suppone insorgano a seguito dell’interazione fra fattori ambientali e predisposizione genetica) è stato prevalentemente basato sul genome array, ossia sullo screening di un certo numero di varianti sparse su tutto il genoma. Questi studi, noti anche come GWAS (Genome Wide Association Study), si basano sull’ipotesi di fondo che la suscettibilità genetica a una malattia multifattoriale sia dovuta all’interazione di varianti genetiche comuni. In effetti, le patologie multifattoriali sono patologie frequenti (si pensi solo al diabete di II tipo o alla cardiopatia ischemica) e l’ipotesi sottostante a un GWAS è quindi ‘malattia frequente, variante frequente’. L’applicazione della NGS ha tuttavia rivoluzionato anche questo campo. Anche negli studi di associazione, cioè, genome ed exome sequencing hanno preso il sopravvento su genome o exome array. L’applicazione del genome/exome sequencing sottende una filosofia sostanzialmente opposta, e cioè ‘malattia frequente, variante rara’, in base alla quale si pensa che  la suscettibilità alla patologia multifattoriale sia dovuta all’interazione più fra varianti rare che all’interazione fra varianti frequenti.

Processo di identificazione delle varianti

Sequenziando l’intera regione codificante si ottiene una gran quantità di dati. A questi dati si giunge in particolare attraverso due fasi:

1. Allineamento (Alignment)

Sofware specifici (Bowtie, Bowtie2, BWA, MAQ, SOAP ed altri) sono in grado di confrontare (o allineare che dir si voglia) le sequenze del paziente con le sequenze presenti nelle banche dati (le cosiddette reference sequences), ricostruendo come in un puzzle l’esoma del paziente. È questa la cosiddetta operazione di alignment.

2. Variant calling (chiamata delle varianti)

Una volta completato l’allineamento e aver quindi ricostruito la sequenza codificante di ogni gene, si rende necessario individuare le varianti di sequenza, ossia tutte le deviazioni del paziente rispetto alle reference sequence di ogni gene. È questa quella che si chiama operazione di variant calling, che nelle analisi NGS viene fatta in modo del tutto automatizzata. In generale la percentuale di errore dell’NGS è pari all‘1%: è cioè possibile che una variante ogni 100 sia un in realtà un artefatto. Pur potendo questa considerarsi una percentuale tollerabile, specialmente avendo presente la mole di dati prodotta da un exome sequencing, molti laboratori fanno utilizzo di software atti a calcolare la probabilità che una variante sia o meno un artefatto (si veda ad esempio GATK). In ambito diagnostico, le varianti con possibile significato clinico vengono spesso confermate attraverso il risequenziamento con elettroforesi capillare (Sanger sequencing), ma alcuni laboratori, grazie all’affidabilità crescente della NGS, hanno già cessato di fare la conferma Sanger.

Da un punto di vista pratico la cosa più importante da sottolineare è che la maggior parte delle varianti rilevabili sono semplici polimorfismi senza alcun significato patogeno. Dunque, se la sfida per il bioinformatico è ottenere dati di qualità col minor numero di artefatti possibile, la sfida del genetista è essere in grado di interpretare propriamente il significato delle varianti.

Posted in Academia, Biologia Molecolare, Genetica Medica, Ultimo Aggiornamento and tagged , , , .

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *