1 背景
(1)基因型的质量GQ
除了考虑位点的质量之外,还要考虑每个个体在这个位点上的基因型,只保留基因型上GQ值大于20,大于5条reads覆盖的基因型,否则设为miss即 ./.。
- 位点深度过滤:保留总测序深度(DP)≥5的变异位点(过滤掉深度<5的低可信位点)。注:DP是VCF中INFO列的字段,代表该位点的总测序深度(所有样本的总和)。
- 基因型质量过滤:将基因型质量(GQ)<20的样本基因型标记为缺失(./.)(VCF中表示缺失基因型的符号)。注:GQ是样本水平的字段(FORMAT列),代表该样本基因型的置信度(值越高越可信)。
(2)缺失率missing
在基因组变异分析(尤其是 GWAS、群体遗传学研究)中,过滤缺失率(Missing Rate)>10% 的 SNP 是行业通用的核心质控步骤。
缺失率 > 10%,说明这个位点在测序 / 基因分型中稳定性极差:可能是测序覆盖度不足、探针设计缺陷、序列重复区域、Indel 干扰、比对错误等技术问题导致的「假缺失」。
这类位点的基因型调用(Genotype Calling)准确性极低,大量假阳性 SNP 会混入数据,直接污染后续分析。
2 具体步骤
(1)基因型的质量GQ
# 示例代码 (vcftools的 --recode会自动添加 .recode.vcf后缀;完成后压缩文件)
vcftools --vcf 输入文件.vcf --minDP 5 --minGQ 20 --recode --recode-INFO-all --out 输出前缀.vcf
vcftools --vcf 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf --minDP 5 --minGQ 20 --recode --recode-INFO-all --out test-minDP5-minGQ20.vcf(2)缺失率missing
# 示例代码
vcftools --vcf $vcf --max-missing 0.9 --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out all.missing
# --max-missing 0.9:代表保留 90% 以上样本有基因型的位点,即过滤掉缺失率 > 10% 的 SNP