By Tingting, 28 May, 2024
Forums

#概念

连锁不平衡(LD)是由两个名词组成,连锁+不平衡,类似的概念入手,就是基因的共表达。

基因的共表达是指两个基因的表达量呈现相关性。比较常见的例子就是:转录组因子和靶基因间的关系。因为转录因子对它的靶基因有正调控作用,所以转录因子的表达量提高会导致靶基因的表达量也上调,两者往往存在正相关关系。

类似的,连锁不平衡(LD)就是度量两个分子标记的基因型变化是否步调一致,存在相关性的指标。如果两个SNP标记位置相邻,那么在群体中也会呈现基因型步调一致的情况。比如有两个基因座,分别对应A/a和B/b两种等位基因。如果两个基因座是相关的,我们将会看到某些基因型往往共同遗传,即某些单倍型的频率会高于期望值。

#R2和D’的应用

r2和D’反映了LD的不同方面。r2包括了重组和突变,而D’只包括重组史。D’能更准确地估测重组差异,但当样本量较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估,所以D’不适合小样本群体研究;

LD衰减作图中通常采用r2来表示群体的LD水平;

Haplotype Block中通常采用D’来定义Block。

#分析

软件PopLDdecay

数据准备vcf文件、GWAS结果文件

操作中遇到的问题:

1、确定vcf文件中的染色体名称,例如是chr1、chr01或者1;

2、GWAS结果文件没有行头;

3、确定好位点的区间。

#参考命令如下:

LDBlockShow -InVCF Test.vcf.gz -OutPut re2 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1
#Test.vcf.gz为vcf文件名称
#re2为输出文件的命令
#chr11:24100000:24200000 染色体区间
#gwas.pvalue为关联分析的结果

会生成4个文件,png则是LDblock图:

re2.blocks.gz  re2.png  re2.site.gz  re2.svg  re2.TriangleV.gz

LDblock图越高越红,比较红的区域会构成一个block(用黑线连起来)

 

参考:

LD衰减图解读(LD decay)-CSDN博客

LDblock绘制连锁不平衡和单体型图_ldblockshow-CSDN博客