0 背景
在SNP过滤:连锁不平衡LD 中介绍过可以依据连锁不平衡来提取独立的位点。除此之外,还有一种方法是利用物理距离来近似模拟遗传独立性。(两个方法选一个即可)
1 分析依据
(1)连锁不平衡
在基因组中,相邻的 SNP 位点并不是独立遗传的。由于它们物理上连在一起,重组发生的概率较低,往往会作为一个“单倍型块(Haplotype Block)”集体遗传。如果两个 SNP 处于强 LD 状态,它们携带的群体结构信息几乎是完全重复的。如果不进行稀释,PCA 或 ADMIXTURE 算法会过度计算这些连锁区域的权重。
(2)“假定”独立的位点
重组率:两个位点之间的物理距离越远,发生交叉重组的可能性就越大。在部分物种中,2kb的距离已经可以让位点之间的相关性下降到很低的水平。
“假定”:因为物理距离并不百分之百等同于遗传独立。基因组中有些地方是“重组热点”,几百 bp 就不连锁了;有些地方是“重组冷点”(如着丝粒附近),即使相隔 100kb仍然处于强连锁。对于拥有数百万 SNP 的重测序数据,按距离“抽稀”是一种非常高效且在宏观统计上(如 PCA)足够准确的近似方法。
2 实操
# 抽稀距离设置为2kb
vcftools --vcf 7genome.recode.vcf --thin 2000 --recode --recode-INFO-all --out 8Rmolle_thinned_2kb