Per fare lo screening di tutti i 20.000 geni umani
Exome Sequencing è un termine che identifica il sequenziamento delle regioni codificanti (esoni) dei geni di un individuo. Esiste una differenza fra Whole Exome Sequencing (WES), che comprende tutti i 20.000 geni umani, e Clinical Exome Sequencing (CES), che comprende tutti i geni fino ad ora noti per essere associati a malattia (circa 6.000).
La storia
Fino a pochi anni fa il test genetico classico consisteva nel sequenziamento di singolo gene (o di un ristretto pannello di geni) tramite la metodica dell’elettroforesi capillare (più comunemente nota come sequenziamento Sanger). L’avvento delle nuove tecnologie di sequenziamento (Next Generation Sequencing – NGS e Third Generation Sequencing) ha invece trasformato lo studio della genetica delle malattie umane portando ad un’epoca di produttività senza precedenti. Grazie ai costi e ai tempi ridotti, tramite NGS è possibile analizzare un elevatissimo numero di frammenti di DNA fino ad ottenere la sequenza di molti geni in parallelo o, come nel caso dell’esoma, di tutti quanti i 20.000 geni, cioè dell’intera regione genomica codificante di un individuo. Ciò è di estremo interesse sia per la dignostica di routine che per la ricerca scientifica. Infatti, anche se la regione codificante rappresenta soltanto l’1% di tutto il genoma, si stima che fino all’85% di tutte le mutazioni patogene cadano all’interno di questa regione.
La soluzione all’Odissea Diagnostica
L’analisi Whole Exome Sequencing è ad esempio indispensabile in tutti quei casi clinici nei quali, dopo decine di test genetici, non si sia mai riusciti a raggiungere una diagnosi. Basti pensare che, secondo, studi recenti, nei paesi sviluppati possono essere necessari fino a 7 anni e mezzo prima che un malato raro riesca a ottenere una conferma diagnostica genetica definitiva. Questa si chiama odissea diagnostica. L’analisi Whole Exome Sequencing permette di accorciare i tempi a poche settimane.
È importante ricordare che non tutte le analisi dell’esoma sono identiche. Come sopra detto, la prima grande differenza è fra analisi dell’esoma intero (Whole Exome Sequencing – WES) e analisi dell’esoma clinico (clinical exome sequencing – CES). Esistono però delle grandi differenze anche all’interno di queste due categorie. Esistono infatti analisi CES/WES a diverso contenuto esonico umano (da 17 milioni di paia di basi – o Mbp – fino a 91 milioni). I diversi kit di capturing esomico possono infatti comprendere regioni diverse, avere coperture parziali in certi geni o escludere alcuni geni non condificanti o includere regioni regolatorie come la 5′-UTR e la 3′-UTR.
Portfolio Breda Genetics
Breda Genetics offre il portfolio di sicuro più articolato sull’analisi dell’esoma ad uso medico. Da Specialisti nelle malattie rare e come Genetisti Molecolari di lunga esperienza, abbiamo imparato a usare la tecnica WES in tutte le sue applicazioni. Le nostre soluzioni Whole Exome Sequencing sono ora tutte basate sul sequenziamento intero dei 20.000 geni umani. In qualche caso, utilizziamo ancora il Clinical Exome Sequencing ad alto coverage (180x) per pannelli multigene selezionati (Panel ANYCAP) o come pre-screening nell’esoma rapido, poiché ci permette di ottenere un risultato preliminare in casi urgenti in circa 9 giorni lavorativi. Le nostre soluzionei Whole Exome Sequencing vanno da 33 Mbp (EXOME 30) a 65 Mbp (EXOME 60 PLUS). In tutti casi, ci siamo resi conto che la profondità di lettura (coverage depth), poiché questo valore è di fondamentale importanza per (1) catturare le varianti del DNA mitocondriale (2) eseguire l’analisi algorimtica delle CNV in modo affidabile. Infatti, sequenziamo sempre a valori compresi fra 80x (EXOME 30) e 180x (EXOME 60 PLUS).
Applicazioni dell’analisi dell’esoma
1. Diagnostica della patologia Mendeliana
L’approccio tradizionale alla ricerca delle malattie mendeliane è sempre stato lo studio di linkage, seguito dalla tecnica del clonaggio posizionale. Questo approccio presentava tuttavia notevoli difficoltà, principalmente legate (1) alla necessità di dover testare più di una famiglia (impresa non facile per malattie rare o rarissime) e (2) alla eterogeneità genetica, che talora caratterizza le patologie mendeliane (ad esempio: sindrome di Bardet-Biedl, di Joubert, di Meckel-Gruber, di Kallmann, di Charcot-Marie-Tooth, ecc..) che rende difficile identificare il gene. Tramite Whole Exome Sequencing, invece, esaminando a tappeto la sequenza codificante, è possibile identificare subito varianti patogene o verosimilmente patogene. I geni coinvolti nella patogenesi della sindrome di Kabuki e di Miller, ad esempio, sono stati identificati grazie a studi di whole exome sequencing. Basti pensare che, ogni mese, grazie a studi genomici ad alta resa come Whole Exome Sequencing e Whole Genome Sequencing, vengono identificate 5-10 nuove associazioni gene-malattia o il collegamento di nuovi quadri clinici a geni-malattia già noti in passato (phenotype expansion)!
2. Studio della patologia multifattoriale
Lo studio genetico delle malattie multifattoriali (cioè malattie che si suppone insorgano a seguito dell’interazione fra fattori ambientali e predisposizione genetica innata, come ad esempio il diabete di secondo tipo, le malattie cardio vascolari e alcune patolgie autoimmunitarie) è stato prevalentemente basato sul genome array, ossia sullo screening di un certo numero di varianti sparse su tutto il genoma. Questi studi, noti anche come GWAS (Genome Wide Association Study), si basano sull’ipotesi di fondo che la suscettibilità genetica a una malattia multifattoriale sia dovuta all’interazione di varianti genetiche comuni. In effetti, le patologie multifattoriali sono patologie frequenti e l’ipotesi sottostante a un GWAS è quindi ‘malattia frequente, variante frequente’. L’applicazione della NGS ha tuttavia rivoluzionato anche questo campo. Anche in questo settore, grazie alla riduzione dei costi, whole exome and whole genome sequencing hanno preso il sopravvento su genome array e exome array. L’applicazione di whole genome sequencing e whole exome sequencing sottende una filosofia opposta, cioè ‘malattia frequente, variante rara’, in base alla quale si pensa che la suscettibilità alla patologia multifattoriale sia più probabilmente dovuta all’interazione di più varianti rare che all’interazione fra varianti frequenti.
Processo di identificazione delle varianti
Sequenziando l’intera regione codificante si ottiene una gran quantità di dati. A questi dati si giunge attraverso due fasi:
1. Allineamento (Alignment)
Sofware come Bowtie, Bowtie2, BWA, MAQ, SOAP ed altri sono in grado di allineare le sequenze del paziente con le sequenze presenti nelle banche dati (le cosiddette reference sequences), ricostruendo come in un puzzle l’esoma del paziente. Questa è la fase di alignment.
2. Variant calling (chiamata delle varianti)
Una volta completato l’allineamento, è possibile rilevare (“chiamare”) le varianti di sequenza, ossia tutte le deviazioni del paziente rispetto alle reference sequence umana di ogni gene. È questa quella che si chiama operazione di variant calling, che nelle analisi NGS è automatizzata.
3. Annotazione
Una volta che le circa 140.000 varianti genetiche di un individuo (tale è quantità di varianti che si ricava in media dal sequenziamento dell’esoma intero) sono state chiamate, cioè estratte attraverso la suddetta operazione di variant calling, esse vanno annotate. Le varianti genetiche vanno cioè caratterizzate in base alla loro frequenza allelica di popolazione, alla loro presenza o meno nei database mutazionali umani (come gnomAD, ClinVar, o OMIM, solo per citarne alcuni) e al loro possibile effetto sull’azione proteica tramite l’analisi in silico (che produce predizioni computerizzate sulla base di algoritmi convalidati, come ad esempio PolyPhen, MutationTaster, o Provean, solo per citarni alcuni).
In ambito diagnostico, le varianti con possibile significato clinico, vengono isolate, intepretate e riportate.
4. Prioritizzazione
In ambito diagnostico, l’analisi dell’esoma è sempre phenotype-driven, cioè guidata dal fenotipo. Si parte dalla ricostruzione attenta del quadro clinico del paziente, isolando poi geni e varianti che più si avvicinano a tale quadro clinico sulla base di quanto già depositato nei database o di quanto già descritto in letteratura. Attenzione: la letteratura sceintifica corre più velocemente dell’aggiornamento dei database, perciò bisogna sempre essere aggiornati! A Breda Genetics aggiorniamo sistematicamente il nostro pannello PanOrpha, che contiene 300+ nuove associazioni gene-malattia di recente pubblicazione sulle riviste scientifiche, ma non ancora inserite nei database, e che andrebbero quindi perse in un’analisi standard.
Tornando all’analisi phenotype-driven, questa può essere facilitata dalla prioritizzazione delle varianti sulla base del quadro clinico del paziente. Esistono software che eseguono questo lavoro in automatico (come Exomiser, ad esempio), ma raramente i risultati sono affidabili. Per questo, è indispensabile l’approccio umano di Clinical Scientists di lunga esperienza nella selezione e prioritizzazione delle varianti sulla base del quadro clinico del paziente. Da questo punto di vista, si può dire che, nonostante i grandi progressi nelle tecniche di sequenziamento, l’analisi clinica dei dati genetici da esoma intero o da genoma intero è strettamente operatore-dipendente e il tasso di successo diagnostico resta fortemente influenzato dalla preparazione clinica dello staff scientifico.
Da un punto di vista pratico, è importante sottolineare che, date le circa 140.000 varianti che vengono identificate in ogni individuo, la maggior parte è costituita da polimorfismi senza alcun significato patogeno, ossia da varianti genetiche che creano semplicemente le differenze fisiche inter-individuali. Dunque, la vera sfida del Genetista Molecolare, è quella di saper selezionare opportunamente le varianti, individuando quella che, come un ago nel pagliaio, determina il quadro clinico del paziente, che è una soltanto fra le 140.000 rilevate dal sequenziamento.
2 risposte
Ottimo
Grazie!