猫言猫语
为什么要看这篇文章,这是因为之前我和章老师讨论过程中,章老师提出过一个假设,这个假设是裸子植物的重组很弱,那么重组如果很弱的另外一个反向含义就应该是,LD很强,裸子植物的LD肯定是有不少人已经做了计算了,所以可以看一下这篇文章。
摘要
在植物中,关于连锁不平衡(LD)的认知对于设计高效的单核苷酸多态性(SNP)芯片至关重要,这与其在群体基因组学和关联研究中的应用密切相关。先前对针叶树基因的研究表明,LD通常在基因范围内快速衰减,但也有例外情况报道。为评估针叶树基因间LD异质性的程度及其潜在成因,我们通过对来自自然种群的48个单倍体雌配子体进行测序,检测了白云杉(Picea glauca)105个基因的LD模式,并与其他针叶树种进行了比较。
结果表明:平均成对r²值为0.19(标准差=0.19),且LD随位点间距离增加而迅速下降,半衰减距离为65个核苷酸。然而,不同基因间的LD存在显著异质性。第一组29个基因表现出较强的LD(平均r²=0.28),而第二组38个基因的LD较弱(平均r²=0.12)。虽然LD与重组率呈强相关性,但其与功能分类无显著关联。各基因间高度异质的核苷酸多样性水平也与LD无显著相关性。对选择信号的检测显示,其显著偏离标准中性模型,这可能主要归因于近期群体历史变化。几乎没有发现遗传搭车效应与LD存在明确关联的证据。
在针叶树种间比较时,白云杉、挪威云杉和欧洲赤松的基因平均LD水平相近,而火炬松和花旗松的基因则表现出显著更高的LD。
引言
在基因组测序数据丰富的被子植物中,连锁不平衡(LD)和核苷酸多样性的估计已较为精确。例如,拟南芥(Nordborg 等,2005 年;Kim 等,2007 年)、玉米(Yan 等,2009 年;http://www.panzea.org)、水稻(http://irfgc.irri.org)、大豆(Lam 等,2010 年)的全基因组水平,或小麦(Horvath 等,2009 年)的染色体水平均已报道了遗传多样性参数。基于这些 LD 研究,Kim 等(2007 年)估计,拟南芥 125-Mb 的基因组全扫描需要约 140,000 个单核苷酸多态性(SNP),而 Yan 等(2009 年)估计玉米 2400-Mb 基因组所需的 SNP 数量在 240,000 到 480,000 之间。全基因组分析显示,葡萄(Vitis vinifera)的 LD 极低(r² < 0.20,即使位点非常接近),因此全基因组关联分析需要进行全基因组测序(Myles 等,2010 年)。
LD 和多态性水平受重组率的影响,而不同植物生活型(草本、灌木、乔木)的重组率似乎存在差异(Jaramillo-Correa 等,2010 年)。此外,针叶树基因组中观察到的重组率与其他植物物种不同:针叶树(裸子植物)的全基因组和基因水平的重组率均显著低于被子植物(Jaramillo-Correa 等,2010 年)。对多个针叶树物种的小规模基因集研究表明,其核苷酸多样性水平为低至中等,且 LD 在基因范围内衰减(Brown 等,2004 年;Neale 和 Savolainen,2004 年;Pot 等,2005 年;Heuertz 等,2006 年;González-Martínez 等,2006b;Pyhäjärvi 等,2007 年;Wachowiak 等,2009 年;Li 等,2010 年;Namroud 等,2010 年)。花旗松基因的 LD 较高,平均半衰减距离超过 1 kb(Eckert 等,2009a)。
所以从这里来看,裸子植物的LD确实是偏高了,LD高就意味着连锁强,连锁强就意味着重组弱,重组弱就意味着不容易从中间打断。
因此,早期就有研究提出候选基因方法,作为缩小基因组筛查范围以鉴定影响自然种群复杂性状遗传变异的核苷酸变异的合理途径(Neale 和 Savolainen,2004 年;González-Martínez 等,2006a)。通过候选基因关联研究,已在火炬松(González-Martínez 等,2008 年)、花旗松(Eckert 等,2009b)、北美云杉(Holliday 等,2010 年)和白云杉(Beaulieu 等,2011 年)中成功检测到与表型变异相关的遗传多态性。
最近,一项研究基于三个北方云杉物种自然种群中五个调控基因的完整或近完整序列,报道了核苷酸多态性(Namroud 等,2010 年)。这些基因的 LD 水平普遍较低,但不同基因和物种间存在显著异质性(Namroud 等,2010 年)。在多个植物物种中,只要分析的数据量足够大,就能发现核苷酸多样性和 LD 的广泛差异(Kim 等,2007 年)。这一趋势表明,针叶树需要分析更大规模的基因集,才能更全面地了解基因空间的 LD 特征。这些信息将有助于构建更高效的基因 SNP 芯片,用于关联研究。
材料与方法
本研究分析的105个基因选自白云杉候选基因列表,这些基因可能参与生长、适应、发育和组织分化过程。这些列表是通过多年挖掘转录组数据,并通过不同组织间基因表达比较来鉴定潜在木材组织标记而构建的(Pavy等,2008b)。由于预算限制,本次分析仅针对105个基因的部分序列。这些基因的注释信息见附表1,序列已提交至GenBank(登录号HQ407558-HQ412273)。
取样与DNA提取
48个单倍体雌配子体样本来自加拿大东部魁北克省约1000公里范围内分布的成熟白云杉树,是加拿大林务局白云杉种质资源库的组成部分。取样区域仅代表该物种横跨大陆自然分布的一小部分,且未呈现显著的群体结构(Namroud等,2010)。使用Dneasy Plant Mini Kit(Qiagen,加拿大密西沙加)提取DNA,并采用WGA2试剂盒(Sigma-Aldrich,加拿大奥克维尔)进行全基因组扩增。
PCR扩增与DNA测序
PCR反应体系为30μl,包含20mM Tris-HCl(pH8.4)、50mM KCl、1.5-2.0mM MgCl2、200μM dNTPs、200μM正反向引物(引物序列见附表1)和1.0单位铂金Taq DNA聚合酶(Invitrogen,美国卡尔斯巴德)。使用5-20ng基因组DNA为模板,在DYAD DNA Engine热循环仪(MJ Research,美国沃尔瑟姆)上运行程序:94℃ 4分钟;35个循环(94℃ 30秒,54-58℃ 30秒,72℃ 1分钟);72℃延伸10分钟。采用ABI 3730XL测序仪(Applied Biosystems,美国福斯特城)和BigDye Terminator v3.1试剂盒进行双向测序,平均每个基因获得44.8条有效序列(共48个样本)。
数据分析
使用SeqMan 5.05(DNASTAR,美国麦迪逊)和BioEdit 5.0.9(Tom Hall,北卡罗来纳州立大学)进行序列比对,转换为NEXUS格式后通过DnaSP 5.10分析(Librado和Rozas,2009)。排除插入缺失多态性(Tenaillon等,2001),计算单站点核苷酸多样性参数π和Watterson's θ。
连锁不平衡(LD)评估仅基于信息位点(出现频率≥2次的双等位位点),使用DnaSP计算等位基因频率相关系数r²(Kelly,1997)。经Bonferroni校正后(P≤0.05),采用Fisher精确检验评估显著性。参照Remington等(2001)的方法分析LD随物理距离的衰减,并通过R脚本(http://www.r-project.org/)基于Hill和Weir(1988)公式计算期望值E(r²)。为准确评估单基因水平LD,剔除低多态性基因(Tenaillon等,2001;Wachowiak等,2009),保留至少15对位点比较的基因(Pot等,2005),最终67个基因用于分析LD与核苷酸多样性、重组率、基因功能和选择的关系。
通过Hudson和Kaplan(1985)四配子检验估算最小重组事件数RM,并标准化为信息位点数(Si)。使用LDHAT软件(McVean等,2002)基于Hudson(2001)方法计算最大似然重组率估计值。
中性检验采用DnaSP计算:Tajima's D(Tajima,1989)、Fu和Li(1993)的D*/F*、Fu(1997)的Fs、Fay和Wu(2000)的H(其中H检验仅针对52个能找到火炬松外群序列的基因)。通过1000次溯祖模拟评估偏离标准中性模型(SNM)的显著性。鉴于基因间重组率差异,分析采用两种条件:1)DnaSP基于Hudson(1987)公式的中等重组水平;2)LDHAT基于Hudson(2001)公式的重组率。两种方法差异较小,前者检测出的显著偏差略多。最终采用Hudson(1987)公式的中等重组率评估LD与SNM偏离的关系(完整结果见附表1)。使用"ms"软件(Hudson,2002)检验数据是否符合Namroud等(2010)的人口统计模型。所有统计检验均通过QVALUE软件(http://genomics.princeton.edu/storeylab/qvalue/)采用假发现率校正(Storey,2002)。
结果
序列多样性
我们对白云杉(Picea glauca (Moench) Voss)48个单倍体雌配子体的105个基因位点进行了部分测序分析。全部样本共产生约3.19Mb的序列数据,平均每个个体检测72,905bp,每个基因测序长度平均656bp(范围293-1342个核苷酸)。
平均核苷酸多样性π为0.0043(标准差=0.0032),Watterson估计值θ平均为0.0051(标准差=0.0032)(表1),相当于每198bp出现一个SNP。平均每个基因存在11.6种单倍型(标准差=6.7),单倍型多样性(Hd)平均为0.72(标准差=0.21)。
在1443个SNP中,63.2%位于非编码区,24.5%为同义突变,12.3%为非同义突变(表1)。总体来看,2.5%的非编码位点、4.2%的同义位点和0.6%的非同义位点具有多态性。基因间比较显示,编码区平均π值为0.0030,非编码区为0.0057(附表1)。编码区内,非同义位点的核苷酸多样性显著低于同义位点7倍(非同义位点πa=0.0013,同义位点πs=0.0088)(Wilcoxon秩和检验:P<0.01)。基于同义和非编码位点计算的psilent也显著高于πa(Wilcoxon秩和检验:P<0.01)。
多态性水平最高的基因(π=0.016)编码木葡聚糖内转葡糖苷酶/水解酶家族成员(基因8号)(附表1)。该序列包含3个外显子和2个内含子,总长1129个核苷酸(内含子446bp,外显子683bp),共83个多态位点。大多数多态性位于内含子区(446个位点中有53个多态位点),编码区π值为0.011,非编码区达0.025,属于多态性最高的外显子(附表1)。
相比之下,某些基因几乎不存在多态性(附表1)。一个编码WRKY转录因子的序列(基因4号)全长1342个核苷酸,仅存在7个多态位点(π=0.0004),其中内含子区366个核苷酸中检测到2个SNP。内含子区π=0.0005),而在外显子区975个核苷酸中检测到5个SNP(π=0.0003)。成功测序的46个雌配子体仅存在7种单倍型。
我们计算并比对了其他针叶树物种的基因核苷酸多样性数据,包括:挪威云杉(Picea abies)18个基因(Heuertz等,2006)、火炬松(P. taeda)18个基因(González-Martínez等,2006b)、欧洲赤松(Pinus sylvestris)14个基因(Pyhäjärvi等,2007)及北美黄杉(Pseudotsuga menziesii var. menziesii)121个基因(Eckert等,2009a)(表1)。通过跨物种比较(含白云杉)发现:
- 编码区分析:同义位点与非同义位点的π值在物种间均无显著差异(Wilcoxon秩和检验,P>0.05)
- 非编码区分析:
- 白云杉(pnc中位数=0.0042)与挪威云杉(pnc中位数=0.0011)存在显著差异(Bonferroni校正后P<0.05)
- 挪威云杉与火炬松(pnc中位数=0.0057)差异显著(Bonferroni校正后P<0.05)
- 挪威云杉与欧洲赤松虽平均值差异大(0.0018 vs 0.0066),但因欧洲赤松数据离散度高(标准差=0.0100)且中位数相近(0.0011 vs 0.0014),未达统计显著性(P>0.05)
值得注意的是,欧洲赤松非编码区π值呈现偏态分布,而其他物种的平均值与标准差范围基本一致(表1)。北美黄杉因缺乏非编码区数据未参与此项比较。
LD水平
在白云杉105个测序基因中,共检测到1007个有效SNP位点(表2),平均每个位点包含9.6个有效SNP(标准差=8.8)。这些位点形成8314对组合比较,其中897对在Fisher精确检验和Bonferroni校正后仍保持显著相关性,表明10.8%的有效位点组合存在显著LD。所有位点组合的等位基因频率平方相关系数(r²)平均值为0.19(标准差=0.19)(表2)。
通过绘制所有有效SNP位点间r²值与物理距离的关系图(图1),并拟合r²期望曲线,我们发现:
- LD衰减特征:合并105个基因的数据显示,LD随距离增加快速衰减(图1)。
- 关键衰减阈值:
▸ r²值下降至初始值一半的物理距离为65个核苷酸(LD半衰距离)
▸ r²值降至0.20的物理距离为87个核苷酸(表2)
用于逐基因估算LD参数的67个白云杉基因(每个基因至少包含15对有效位点比较)中,平均r²值为0.19(标准差=0.13),与合并105个基因数据集的整体均值一致(表2)。图1显示了基于Hill和Weir(1988)模型拟合的LD衰减曲线多样性,表明不同基因及基因家族的LD模式存在高度异质性。与先前针对云杉属物种5个转录因子基因的LD研究(Namroud等,2010)相比,本研究因基因集大幅扩充(补充图1),LD异质性更为显著。
分组分析
67个基因按r²均值高于或低于整体均值(105个基因合并数据)分为两组:
- 高LD组(29个基因):平均r²=0.28
- 低LD组(38个基因):平均r²=0.12
两组r²值分布差异显著(Wilcoxon秩和检验:P<0.01),但**核苷酸多样性(π值)**无显著差异(P>0.05)。进一步分析显示:
- 高LD组中,r²与π值无相关性(Spearman等级相关:0.31,P=0.10)
- 低LD组中,两者亦无相关性(Spearman等级相关:0.05,P=0.74)
典型示例:编码阿拉伯半乳糖蛋白的基因31号虽LD较低(平均r²=0.054),但其核苷酸多样性为平均值的两倍(π=0.0081)。基因水平的r²与π值无相关性见图3。
高LD基因特征
29个高LD基因的LD半衰距离平均为394个核苷酸。其中4个基因的平均r²>0.50,显著高于其他针叶树报道值,且LD在测序片段内未呈现衰减:
- 基因26号(723 bp,编码纤维素合酶):平均r²=0.50
- 基因102号(577 bp,编码富含亮氨酸重复激酶):平均r²=0.72
- 基因106号(502 bp,编码EIN转录因子):平均r²=0.59
- 基因38号(711 bp,编码β-微管蛋白):平均r²=0.64
这些基因可能受选择压力或功能约束影响,导致LD水平异常升高。
不同功能类别白云杉基因的连锁不平衡(LD)特征
通过比对NR数据库的"blast"搜索结果,我们使用blast2go软件(Conesa等,2005)为基因序列标注了基因本体(GO)术语。为检验高/低LD组是否存在GO术语的富集现象,发现:
水解酶类基因的潜在富集
在29个高LD基因中,催化O-糖苷化合物水解(GO:004553)或作用于糖苷键(GO:0016798)的水解酶基因占比显著(Fisher精确检验P=0.017),该组包含8个此类水解酶。但经错误发现率校正后,这一趋势不再显著(FDR≤0.30)。总体而言,两组基因在功能层面未呈现明显分布规律。
转录因子基因的分布特征
针对数据集中的38个转录因子基因分析显示:
- 核苷酸多样性(π值)范围广(0.00032~0.0123),平均π值(0.0041)与其他基因(0.0047)无显著差异(Wilcoxon秩和检验P>0.05)
- 高LD组含8个转录因子基因,低LD组含11个,组间分布无统计学差异(χ²=1.55,自由度=1,P=0.213)
基因家族内部变异示例
- wrky家族:一个成员平均r²=0.28(π=0.006),另一个r²=0.12(π=0.007)(图1c)
- myb家族:一个成员平均r²=0.33(π=0.0045),另一个r²=0.10(π=0.0055)(图1b)
- myb R2R3亚家族:7个基因的π值和LD水平差异显著(图1d),这与白云杉(P. glauca)中knox-1转录因子家族既往研究结果一致(Namroud等,2010)
这表明即使同家族基因,LD水平和核苷酸多样性也可能存在显著分化,暗示其可能受到不同的进化选择压力或功能约束。
在105个白云杉基因中,基于全部位点(中位数=0.400)和仅沉默位点(中位数=0.315)计算的Tajima's D值无显著差异(Wilcoxon秩和检验:P>0.05)。因此后续分析统一采用全部位点数据。我们发现:
- Tajima's D(69个负值)和Fu's Fs(94个负值)均显著偏负(Wilcoxon符号秩检验:P<0.01)
- 在有火炬松(P. taeda)外群序列的52个基因中,Fay和Wu's H统计量34次为负值(显著偏负,P<0.01)
这些负值表明存在低频(Tajima's D)和高频(H统计量)变异体的富集,暗示冰川作用导致的群体瓶颈和后续扩张,与Namroud等(2010)对北方云杉的研究一致。
选择信号与LD关联
在52个可计算LD和H统计量的基因中:
- 10个基因Tajima's D显著为负(P<0.05),其中7个属于低LD组
- 14个基因H值显著为负(P<0.05),其中8个属于高LD组
- 经错误发现率校正后,仅1个H值仍显著(Q<0.05)
典型案例:
- 木葡聚糖转移酶基因(8号)具有极显著负H值(H=-22.27)和高LD水平
- 两个可能受净化选择基因(88号纤维素酶基因和32号糖苷水解酶9A基因)均属高LD组,且Tajima's D、Fu和Li's F*/D*值显著为负
进化选择指标
- pa/ps比值(平均0.21)显示整体受强净化选择
- 3个比值>1的基因中,仅60号(光敏色素A信号转导因子)显著偏离中性模型(Fs、D和F*值显著)
- 染色质重塑基因(39号)和Pgmyb10转录因子(70号)虽pa/ps>1但未偏离中性,且属于高LD组(平均r²分别为0.20和——这两个基因的平均r²值分别为0.20和0.18,均属于高LD组,这可能暗示存在"搭车效应"(hitchhiking)。虽然这两个基因的Fs检验值均为负值(39号基因Fs=-1.37,70号基因Fs=-5.46),但未达到统计学显著性(P>0.05)。总体而言,无论采用何种中性检验方法,我们均未发现基因偏离标准中性模型(SNM)的程度与其LD水平之间存在一致的关联(表3
讨论
核苷酸多样性
白云杉(P. glauca)基因序列中检测到的平均核苷酸多样性水平与欧洲赤松(P. sylvestris)(Pyhäjärvi等,2007;Wachowiak等,2009)、火炬松(P. taeda)(González-Martínez等,2006a)、挪威云杉(P. abies)(Heuertz等,2006)以及花旗松(P. menziesii)(Eckert等,2009a)的报道相似。该水平也与被子植物树种欧洲山杨(Populus tremula)(Ingvarsson,2008)相当,但低于拟南芥(Schmid等,2005)或玉米(Wright和Gaut,2005)等一年生植物(表4)。白云杉与其他物种均表现出明显的位点间核苷酸多样性差异(表4),其中白云杉基因间的多样性值波动尤为显著。类似差异在拟南芥、玉米、高粱和大麦中也有报道(Wright和Gaut,2005;Kim等,2007),这种植物核基因多样性范围的广泛性可归因于突变率差异、选择作用和群体历史效应(Roselius等,2005)。
连锁不平衡(LD)模式
针叶树物种间比较表明,白云杉、挪威云杉和欧洲赤松的基因平均LD水平普遍较低且相似,而火炬松和花旗松的基因LD水平明显更高。与多数被子植物的报道模式相比,针叶树基因的LD通常更弱(表4)。但需注意,观察到的LD水平可能与各针叶树LD研究中自然多样性取样范围存在潜在关联。例如火炬松的测序样本不仅来自自然群体,还包含育种群体(González-Martínez等,2006b),样本间的亲缘关系可能导致LD水平升高。此外,火炬松作为特有种,其历史群体规模可能小于广布针叶树种,这也会产生类似效应。
(附件文件1内容:)
相比之下,欧洲赤松(P. sylvestris)研究涉及全欧洲自然群体的取样,检测到极低LD水平(Pyhäjärvi等,2007)。花旗松(Pseudotsuga menziesii var. menziesii)的序列来自华盛顿和俄勒冈州6个地区的24株无亲缘关系个体,涵盖多种生境(Eckert等,2009a)。与欧洲赤松类似(Pyhäjärvi等,2007),花旗松样本分布广泛且二者群体遗传特征高度相似,但花旗松的LD水平总体更高。Pyhäjärvi等(2011)指出,尽管花旗松在核DNA和叶绿体DNA标记上群体结构较弱(Eckert等,2009a;Wei等,2011),但合并不同频率的群体样本可能导致LD估值偏高。对青藏高原3种云杉14-16个基因的测序研究(Li等,2010)也显示,其平均r²值高于白云杉或挪威云杉(表4)。作者认为,在承认重组率较高的前提下(Li等,2010),跨物种数据合并可能夸大了r²值。这些亚洲云杉类群基因中较高的平均r²值可能不仅源于数据结构——虽然它们受冰川影响可能弱于北方云杉(Li等,2010),但部分物种的狭窄分布也暗示其历史群体规模较小,从而加剧LD。需通过实证或模拟研究进一步评估LD估值对这些因素的敏感性。
同物种内,野生群体的LD通常低于驯化群体,如大麦(Caldwell等,2006)、大豆(Lam等,2010)、水稻(Zhu等,2007)、番茄(Arunyawat等,2007;Labate等,2009)和菜豆(Rossi等,2009)所示,这反映了有效群体规模的变化(Mather等,2007)。栽培玉米基于大尺度序列数据估算的LD显示,100核苷酸距离内平均r²为0.24,2 kb内仍保持0.20以上(Yan等,2009),驯化过程中的选择可能是广泛LD的根源(Whitt等,2002)。
通常,为建立LD模式需合并多序列的位点比对数据,该操作得出针叶树基因LD普遍较低的结论(Neale和Savolainen,2004)。但逐基因分析表明,合并处理会掩盖某些基因的高LD特征。本研究发现基因家族间及家族成员间存在显著LD差异,这增加了模式预测的难度。其他植物的大规模群体序列数据同样检测到LD异质性(Flint-Garcia等,2003)。LD在染色体间及染色体内不同区域也可能高度可变(Yan等,2009),人类基因组中LD水平的显著异质性亦被报道,其可能与序列特征部分相关(Smith等,2005)。
在白云杉中,我们既发现LD衰减微弱的基因(如半乳糖醛酸转移酶、EIN3转录因子),也检测到LD半衰距离>600 bp的基因(如纤维素合酶、两种水解酶、乙烯响应转录因子、LRR激酶)。针叶树中目前仅少数高LD案例被报道:火炬松18个抗旱候选基因中,2个基因(编码壁相关蛋白激酶的ppap12和编码咖啡酰辅酶A-O-甲基转移酶的ccoaomt-1)在约500 bp序列中呈现高LD(González-Martínez等,2006a),但选择信号分析未获定论(González-Martínez等,2006b)。仅三项研究检测了针叶树近全长基因的LD,均报道部分基因存在高LD(Lepoittevin等,2008;Namroud等,2010;Pyhäjärvi等,2011)。海岸松(Pinus pinaster)中,HD-ZIP、LIM和MYB家族的三个转录因子基因表现出高LD(包括myb1基因在1304 bp距离内完全连锁)及对标准中性模型(SNM)的强烈偏离(Lepoittevin等,2008)。虽未发现搭车效应证据,但Tajima's D和Fu's Fs显著正值可能源于瓶颈效应(另三个测试的调控基因未现此模式)、特定位点的平衡选择或二者共同作用(Lepoittevin等,2008)。
白云杉基因中普遍存在的负Tajima's D值表明稀有等位基因显著过量。虽然这种过量可解释为正选择信号,但群体扩张也可能导致类似模式。我们采用Namroud等(2010)建立的群体历史模型(约25,000年前的瓶颈事件与17,000年前开始的扩张)对52个含火炬松外群序列的基因进行检验,发现更剧烈的瓶颈强度(0.1%而非原0.2%)能更好拟合数据。因此,14个具有显著负H值基因中的高频等位基因过量现象,可能与末次盛冰期瓶颈及后续扩张相关。不过,少数同时具有负H/D值和低LD的基因(如12号基因)可能通过高重组率与选择压力的共同作用,在保留近期"遗传搭车"产生的高频等位基因的同时降低了LD程度。
本研究所见的Tajima's D、Fay和Wu's H以及Fu's Fs值偏负趋势,在挪威云杉(Heuertz等,2006;Namroud等,2010)、欧洲赤松(Pyhäjärvi等,2007)、北美花旗松(Eckert等,2009b)和黑云杉(Namroud等,2010)等全新世分布区大幅变动的温带/北方物种中均有报道。而对地中海海岸松、东南部自然分布区的火炬松等受冰川影响较小的针叶树种(Pot等,2005;González-Martínez等,2006b),以及青藏高原受冰川作用较弱的松属(Ma等,2006),并未普遍出现D/H值偏负现象。这些差异表明白云杉自然群体中Tajima's D值的偏负趋势更可能源于群体历史而非广泛的"遗传搭车"效应。
与花旗松研究结果(Eckert等,2009a)类似,本研究中仅极少数基因显示明确的选择信号,未能发现LD水平与选择作用间的稳定关联。
实际应用意义
白云杉基因内部普遍观测到较低的连锁不平衡(LD)水平。若这一现象在整个基因组中普遍存在(如葡萄中的研究所示,Myles等,2010),那么针对基本未经驯化的群体开展全基因组关联分析将需要极大量的单核苷酸多态性(SNP)标记。近期内通过芯片覆盖所有必要变异位点并不现实——仅覆盖云杉约32,700个基因(Rigault等,2011),按每85bp一个SNP、平均基因长度3-3.5kb(Hamberger等,2009)计算,就需110万-130万个SNP位点。
因此,针对特定生态或经济性状相关生理过程的基因先验信息显得至关重要,可大幅缩减关联分析涉及的基因与SNP数量。最新研究表明,对某些生理过程或组织,林木候选基因可压缩至数百个(Pavy等,2008b),这将显著提高关联分析的可行性。此外,由于致病突变侧翼区域的LD通常快速衰减,基于候选基因的白云杉关联研究将具备高分辨率优势,且适用于多个育种群体间的跨群体分析。