gatk参数
- 格式:docx
- 大小:11.25 KB
- 文档页数:2
gatk参数
GATK(Genome Analysis Toolkit)是一个广泛使用的软件包,用于分析和整合高通量测序数据,特别是针对人类基因组和其他模型生物的基因组项目。
GATK提供了多种工具和参数选项,用于对测序数据进行质量控制、比对、变异检测和注释等操作。在这里,我们将对GATK的常用参数进行简要介绍,其主要分为三个部分:数据前处理、变异检测和注释。
1. 数据前处理参数
基于不同的测序数据类型,包括WGS、WES和RNA-seq等,GATK提供了不同的数据前处理工具和参数选项。
- BQSR (Base Quality Score Recalibration):BQSR可以校正Illumina质量分数的偏移和遗漏,以提高变异检测的准确性。参数选项包括-U
ALLOW_SEQ_DICT_INCOMPATIBILITY-REFERENCE_SEQUENCE-INPUT_ALIGNMENT_FILE-INPUT_READS_FILE-DBSNP-VAR_TI_TV-OUTPUT-INTERVALS-INTERVAL_SET_RULE-DO_NOT_WRITE_SUMMARY_TO_DISK等。
2. 变异检测参数
变异检测是GATK的一个主要功能,其变异检测工具和参数选项如下。
- CombineGVCFs:CombineGVCFs可以合并多个GVCF文件以生成一个单一的VCF文件。参数选项包括-R_REF--INPUT--INTERVALS-TMP_DIR--JOINT_CALLING--MIN_BASE_QUAL_SCORE等。
3. 注释参数
注释是确定变异的功能和影响的关键步骤,GATK提供了多种注释工具和参数选项。
- SnpEff:SnpEff是一种用于注释VCF文件的工具,可以将SNP和INDEL变异与外部数据库进行比对,并将其分为高影响、中影响和低影响。参数选项包括-vcf--config--ud等。
- VariantRecalibrator:VariantRecalibrator可以进行机器学习,以从所有可用变异中选择高置信度的变异。参数选项包括-R_REF--input--resource--trust-all-polymorphic--mode--tranches-file--output等。 总之,GATK的参数选项非常多,需要针对特定的变异分析和注释任务进行选择和调整。熟练掌握GATK参数选项将有助于提高变异检测的准确性和可靠性,从而更好地理解基因组功能和疾病发生的机制。