1 背景
MAF是次要等位基因频率。它是指群体中第二多的等位基因频率假设某一位点,检测到了A,T和C三种碱基,A出现20次,T出现10次,C出现5次,则第二多的T的等位基因频率为10/35。
MAF是次要等位基因频率,指群体中丰度第二高的等位基因频率。
例如在100个体的群体中,某个位点有三种碱基类型分别是A、T、C,其中A碱基的频率为0.6,T碱基频率为0.3,C碱基频率为0.1,那么次等位基因频率指的就是T碱基的频率,即该位点的MAF = 0.3。
如果MAF特别小,比如小于0.05,这就意味着在群体中绝大多数位点都是相同的基因型(假设次等位基因为T,主等位基因为A,则基因型分布会显示大部分个体为AA基因型,而AT和TT基因型则会很少见),以至于这些位点贡献的信息非常少,导致假阳性的增加。所以需要根据MAF进行过滤,常规GWAS的常规MAF阈值介于0.01或0.05之间,具体筛选条件取决于样本量,样本量越大,MAF的筛选条件可以越小。
2 具体操作
# --maf 0.05保留maf>=0.05的位点;数字越大越严格
vcftools --vcf $vcf --maf 0.05 --recode --recode-INFO-all --out all.missing3 注意事项
- 进行群体选择、进化树构建、PCA分析时, 最起码要进行(a) indel邻近区域的SNP和10bp范围内的SNP cluster (b) 基因型的质量GQ和缺失率missing (c) 次等位基因频率MAF 过滤(可以不用进行LD过滤,但是如果SNP位点过多的话,最好过滤一下LD,可以加快分析速度)。
- 进行Structure分析、TreeMix分析时,必须要进行LD过滤。