Description

侃大山,随便聊聊。有啥新奇特的Idea都可以分享。

By wuzhenzhen, 31 May, 2026
  • LD 衰减分析可以查看整个群体及亚群的连锁水平,推荐软件 popLDdecay。
  • 如果两个座位在基因组上离得越近,连锁就越强,LD度越大。因此,随着标记见距离的增加,平均LD度将降低,呈现衰减状态,称之为LD衰减图。
  • LD衰减距离:平均LD系数降低到一定标准后(降低到最大值的一半;降低到0.2以下;降低到0.1以下),对应的物理距离。影响因素:群体类型,野生vs驯化(野生比驯化衰减的更快);世代间隔(世代间隔短,重组概率高,LD连锁被打碎,R2值小,衰减更快);染色体相对位置。
  • LD衰减距离的应用:GWAS中估计标记的覆盖度,通过LD衰减距离和标记间平均距离的比较判断标记是否足够;判断群体多样性的差异,一般野生群体的LD衰减速度快于驯化群体。
  • 该分析需要使用未进行 LD 过滤的 VCF 文件。
By wuzhenzhen, 31 May, 2026

结构分析的基本原理为先预设群体由若干亚群(k=x)构成,通过模拟算法找出在k=x的情况下,最合理的样本分类方法。最后再根据每次模拟的最大似然值,找出最适用这群体的K值。

该方法假设在各个亚群内部个体应该符合哈代-温伯格平衡(哈温平衡的概念),那么这个亚群内的基因频率分布应该可通过哈温平衡检验。 基因型位点不能是连锁的。同一个体基因组上的不同SNP可能来源不同亚群体,这是由于杂交混血过程带来的效应。为了达到哈-温平衡,对不同的位点的分类方法是不同的, 软件是对每个位点单独进行分群的。 

Structure分析,输入的数据就是样本的基因型数据一般来讲是snps,需要注意的是输入的必须是不存在连锁不平衡的独立位点。所以,使用所有的SNP是不对的。如果使用大量存在连锁不平衡的位点,就违背了这个软件最初的假设。需要根据连锁不平衡衰减分析的结果,仅从所有SNP中挑选一部分独立的位点用于structure分析。

数据准备:过滤连锁不平衡的位点后的vcf文件。