SNP过滤：（3）次等位基因频率MAF

By wuzhenzhen, 31 March, 2026

Forums

1 背景

MAF是次要等位基因频率。它是指群体中第二多的等位基因频率假设某一位点，检测到了A，T和C三种碱基，A出现20次，T出现10次，C出现5次，则第二多的T的等位基因频率为10/35。

MAF是次要等位基因频率，指群体中丰度第二高的等位基因频率。

例如在100个体的群体中，某个位点有三种碱基类型分别是A、T、C，其中A碱基的频率为0.6，T碱基频率为0.3，C碱基频率为0.1，那么次等位基因频率指的就是T碱基的频率，即该位点的MAF = 0.3。

如果MAF特别小，比如小于0.05，这就意味着在群体中绝大多数位点都是相同的基因型（假设次等位基因为T，主等位基因为A，则基因型分布会显示大部分个体为AA基因型，而AT和TT基因型则会很少见），以至于这些位点贡献的信息非常少，导致假阳性的增加。所以需要根据MAF进行过滤，常规GWAS的常规MAF阈值介于0.01或0.05之间，具体筛选条件取决于样本量，样本量越大，MAF的筛选条件可以越小。

2 具体操作

# --maf 0.05保留maf＞=0.05的位点；数字越大越严格
vcftools --vcf $vcf  --maf 0.05 --recode --recode-INFO-all --out all.missing

3 注意事项

进行群体选择、进化树构建、PCA分析时，最起码要进行（a） indel邻近区域的SNP和10bp范围内的SNP cluster (b) 基因型的质量GQ和缺失率missing (c) 次等位基因频率MAF 过滤（可以不用进行LD过滤，但是如果SNP位点过多的话，最好过滤一下LD，可以加快分析速度）。
进行Structure分析、TreeMix分析时，必须要进行LD过滤。