Il database ExAC: una delle risorde più utili per la comunità scientifica

ImmagineExAC è acronimo di Exome Aggregation Consortium, che è una coalizione di ricercatori con l’intento di aggregare e armonizzare tutti i dati di exome sequencing provenienti da progetti su vasta scala. Come tale, ExAC è anche il nome del database che questo consorzio sta costruendo e alimentando.

Nel database ExAC, che è ora nella sua versione beta, sono stati fino ad ora accumulati i dati di exome sequencing di più di 60.000 persone. I dati dei pazienti affetti da gravi malattie dell’età pediatrica sono stati intenzionalmente eliminati acciocché il database possa servire da utile strumento per lo studio di malattie rare gravi. ExAC è già in uso nella ricerca ed è già citato in diverse pubblicazioni PubMed, mentre l’articolo ufficiale sul database è atteso per la fine del 2015.

Come si usa?

La maschera di ricerca sulla homepage è molto intuitiva e vi si possono immettere dati di vario tipo, dal numero del trascritto, alle coordinate della  mutazione al nome del gene (naturalmente il motore di ricerca riconosce anche i nomi di gene vecchi o in disuso). La pagina dei risultati è omnicomprensiva pur essendo visivamente leggera. Una ricerca per CFTR, ad esempio, restituirà immediatamente una visione d’insieme del gene con i suoi link più utili e i suoi numeri più importanti (ad esempio il numero di varianti identificate e le coordinate UCSC). Ma la parte migliore della pagina viene subito sotto, dove la struttura del gene è visivamente rappresentata nella sua alternanza di esoni ed introni tempestata di puntini di vari colori che identificano la posizione e il tipo delle varianti identificate: NERO=5’UTR, 3’UTR e intronica, MARRONE=missenso (benigna o patogenica), ROSSA=nonsenso, frameshift o impattante lo splicing, VERDE=sinonima o senza effetto sullo splicing.

Alternation of exon/introns in the ExAC gene representation. The blue hills are the level of coverage of each gene fragment.

Grafico del gene con alternanza esoni/introni (in basso) e rappresentazione del livello di coverage di ciascun frammento (collinette blu).

Le collinette blu rappresentano la quota di individui sopra un certo limite di coverage, che può esser settato manualmente sulla destra. La rappresentazione visiva del gene può essere zoommata dentro e fuori per focalizzarsi su un particolare esone o introne e tutte le varianti sono elencate in a tabella interattiva sottostante, nella quale possono essere ordinate e ri-ordinate cliccando sui parametri delle varie colonne.

È importante sottolineare che il gene viene graficamente rappresentato nel suo trascritto canonico (canonical script), che è poi il trascritto che quasi sempre viene utilizzato dai laboratori nella creazione dei protocolli di analisi: per il DNA umano il trascritto canonico viene definito secondo il seguente ordine gerarchico: 1. si utilizzerà come trascritto canonico quello che genera la traduzione CCDS più lunga senza codoni di stop, 2. se (1) non è disponibile, si userà quello che genera la traduzione Ensembl/Havana più lunga senza codoni di stop. 3. se (2) non è disponibile si utilizzerà quello che genera la traduzione più lunga senza codoni di stop. 4. se il trascritto non codifica per una proteina, si utilizzerà comunque il trascritto non codificante più lungo.

Breda Genetics ed ExAC

Breda Genetics utilizza il database ExAC per filtrare le varianti delle sue analisi? Certamente sì. Reputiamo ExAC come uno degli strumenti più innovativi e utili attualmente disponibili per la comunità scientifica internazionale e lo utilizziamo regolarmente per filtrare e interpretare ampie serie di dati dalle nostre corse di exome e genome sequencing.

Referenze: http://exac.broadinstitute.org/, www.pubmed.com (ricerca per “ExAC” al 09/11/2015), http://www.ensembl.org/Help/Glossary?id=346

Posted in Academia, Academia, Technohub, Technohub and tagged , , , .