GATK: the Genome Analysis Toolkit

Il Genome Analysis Toolkit o, più semplicemente GATK, è un software ampiamente utilizzato per analizzare i dati di sequenziamento ad alta resa. GATK è stato sviluppato dal gruppo di lavoro Data Science and Data Engineering del Broad Institute. Questo toolkit specializzato fornisce agli utilizzatori un’ampia selezione di tools focalizzati sulla scoperta di varianti, genotipizzazione e assicurazione della qualità dei dati. L’architettura del software gli permette di maneggiare progetto di qualsiasi dimensione
Il Genome Analysis Toolkit è divenuto uno standard industriale nell’identificazione degli SNP insieme a indels nei dati di sequenziamento del DNA germinale e dell’RNA. GATK è attualmente in fase di adattamento anche per elaborare i dati dalle cellule somatiche.
Applicazioni principali
Il tool GATK è stato sviluppato per processare i dati dell’intero esoma e dell’intero genoma che sono generati dalla tecnologia di sequenziamento Illumina. Tuttavia, può anche essere adattato a molte altre tecnologie e disegni sperimentali. Anche se la progettazioen iniziale era stata fatta per la genetica unaman, GATK è oggi capace di maneggiare dati genomici che vengono da qualsiasi organismo con qualsiasi ploidia.
Il software è dotato di una varietà di strumenti che possono essere pronti all’uso o utilizzati insieme agli scripts. Questi strumenti possono essere facilmente utilizzati contemporaneamente tramite il multithreading. GATK include anche consigli completi sul flusso di lavoro read-to-results per l’identificazione delle varianti per raggiungere la massima precisione possibile e la massima efficienza computazionale.