#概念
连锁不平衡(LD)是由两个名词组成,连锁+不平衡,类似的概念入手,就是基因的共表达。
基因的共表达是指两个基因的表达量呈现相关性。比较常见的例子就是:转录组因子和靶基因间的关系。因为转录因子对它的靶基因有正调控作用,所以转录因子的表达量提高会导致靶基因的表达量也上调,两者往往存在正相关关系。
类似的,连锁不平衡(LD)就是度量两个分子标记的基因型变化是否步调一致,存在相关性的指标。如果两个SNP标记位置相邻,那么在群体中也会呈现基因型步调一致的情况。比如有两个基因座,分别对应A/a和B/b两种等位基因。如果两个基因座是相关的,我们将会看到某些基因型往往共同遗传,即某些单倍型的频率会高于期望值。
#R2和D’的应用
r2和D’反映了LD的不同方面。r2包括了重组和突变,而D’只包括重组史。D’能更准确地估测重组差异,但当样本量较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估,所以D’不适合小样本群体研究;
LD衰减作图中通常采用r2来表示群体的LD水平;
Haplotype Block中通常采用D’来定义Block。
#分析
软件PopLDdecay
数据准备vcf文件、GWAS结果文件
操作中遇到的问题:
1、确定vcf文件中的染色体名称,例如是chr1、chr01或者1;
2、GWAS结果文件没有行头;
3、确定好位点的区间。
#参考命令如下:
LDBlockShow -InVCF Test.vcf.gz -OutPut re2 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1
#Test.vcf.gz为vcf文件名称
#re2为输出文件的命令
#chr11:24100000:24200000 染色体区间
#gwas.pvalue为关联分析的结果
会生成4个文件,png则是LDblock图:
re2.blocks.gz re2.png re2.site.gz re2.svg re2.TriangleV.gz
LDblock图越高越红,比较红的区域会构成一个block(用黑线连起来)
参考:
LDblock绘制连锁不平衡和单体型图_ldblockshow-CSDN博客