Cosa sono i file bed?
Se sei interessato, o direttamente coinvolto, in applicazioni Next Generation Sequencing per ricerca o diagnostica, in particolare per il sequenziamento dell’intero esoma o di pannelli multigene, avrai sicuramente sentito parlare dei cosiddetti bed files. Se non ne hai ancora sentito parlare, presto sentirai la necessità di sapere cosa sono e come si usano!
I bed files sono file di riferimento, con estensione .bed, forniti dal produttore del kit di capturing (detto anche kit di enrichment). Quindi, se desideri ottenere i bed file, è meglio che tu abbia l’indirizzo email del produttore del kit, poiché dovrai contattare loro per averli. I file bed mostrano precisamente la copertura del kit di capturing. Se hai bisogno di sapere se un gene, o una sua porzione, sono coperti dall’analisi NGS che stai per eseguire, devi guardare i bed file.
Come si leggono i bed file?
I file bed sono disegnati per consentire all’utlizzatore di visualizzare l’estensione dell’esoma o del pannello multigene che si sta per arricchire (o “catturare”) a partire dal DNA del paziente. Se fai semplicemente clic sul file bed, il tuo sistema probabilmente lo aprirà in un’applicazione del tipo Blocco note (Notepad) come file di testo e quindi non sarai in grado di usarlo. Per visualizzare correttamente i bed file, devi caricarli su una piattaforma genomica visiva come IgV (Integrative Genomics Viewer) o UCSC Genome Browser.
È importante utilizzare i file bed?
Utilizzare i bed file prima di eseguire un’analisi NGS, come il sequenziamento dell’esoma intero o il sequenziamento di pannelli multigene, è essenziale. Infatti, come si può notare anche dal nostro ampio menu di soluzioni di exome sequencing, esistono diversi tipi di esomi, che si distinguono per l’estensione del contenuto esonico umano (che può variare da meno di 10 Mb a più di 90 Mb), per il numero di geni (da meno di 3.000 alla totalità dei 20.000 geni umani) e per l’inclusione o l’esclusione delle sequenze regolatorie nelle regioni non tradotte (5′-UTR e 3′-UTR). Inoltre, sebbene il sequenziamento dell’esoma dovrebbe includere per definizione tutte le regioni codificanti, alcuni kit includono soltanto gli hotspot mutazionali o escludono alcune porzioni di gene a causa della particolare confirmazione locale della sequenza genomica o persino del livello di espressione di diverse isoforme del gene.
Sei tu il bioinformatico del laboratorio?
Sei tu il Bioinformatics guy che fa calcoli tutto il giorno per elaborare allineamenti e chiamata delle varianti? Vorrai sicuramente conoscere tutti i dettagli più tecnici dei bed files, e noi non vogliamo certo deluderti!
I file .bed appartengono alla categoria dei file di dati (data files) e vengono compilati in un formato di testo tab-delimited, utilizzato per l’annotazione delle coordinate di regioni genomiche. I bed files ono costituiti da numerose righe, una per ogni regione genomica di interesse, ognuna delle quali contenente da 3 a 12 colonne di dati. In ogni riga ci sono 3 colonne di dati obbligatorie, mentre le altre sono opzionali e possono essere personalizzate. I primi tre campi obbligatori in ciascuna riga sono:
- Chromosome: nome del cromosoma, fornito con o senza prefisso “chr”;
- Chromosome Start: posizione di inizio della regione di interesse in un sistema standard di coordinate;
- Chromosome End: posizione di fine della regione di interesse in un sistema standard di coordinate.
A queste informazioni possono essere aggiunti campi opzionali per fornire maggiori dettagli della regione di interesse, sempre delimitati da spazi o tabs.