Description

侃大山,随便聊聊。有啥新奇特的Idea都可以分享。

By wuzhenzhen, 31 March, 2026

1 背景

进行群体遗传结构分析时,如果位点之间有强连锁的关系则会影响分析的结果,因此需要过滤掉互相之间连锁不平衡的SNP。

2 具体步骤

(1)软件安装

By wuzhenzhen, 31 March, 2026

1 背景

(1)基因型的质量GQ

除了考虑位点的质量之外,还要考虑每个个体在这个位点上的基因型,只保留基因型上GQ值大于20,大于5条reads覆盖的基因型,否则设为miss即 ./.。

- 位点深度过滤:保留总测序深度(DP)≥5的变异位点(过滤掉深度<5的低可信位点)。注:DP是VCF中INFO列的字段,代表该位点的总测序深度(所有样本的总和)。
- 基因型质量过滤:将基因型质量(GQ)<20的样本基因型标记为缺失(./.)(VCF中表示缺失基因型的符号)。注:GQ是样本水平的字段(FORMAT列),代表该样本基因型的置信度(值越高越可信)。

(2)缺失率missing

在基因组变异分析(尤其是 GWAS、群体遗传学研究)中,过滤缺失率(Missing Rate)>10% 的 SNP 是行业通用的核心质控步骤。

缺失率 > 10%,说明这个位点在测序 / 基因分型中稳定性极差:可能是测序覆盖度不足、探针设计缺陷、序列重复区域、Indel 干扰、比对错误等技术问题导致的「假缺失」。

这类位点的基因型调用(Genotype Calling)准确性极低,大量假阳性 SNP 会混入数据,直接污染后续分析。