By jiangchenhao, 31 March, 2026
Forums

【金山文档 | WPS云文档】 文献阅读:1000个针叶树基因组:基因组创新、结构组织与多样性
https://www.kdocs.cn/l/crhxNxevQHe6

猫言猫语

好数据、好结果、但是文章中的一些细节和叙事手法难以恭维,不明白这样的工作最后能到什么样的期刊,如果能修复其中的问题,应该能到Nc和NEE级别。

摘要

挪威云杉(Picea abies L. Karst)与欧洲赤松(Pinus sylvestris L.)是欧亚大陆北部优势树种,对全球碳汇至关重要,但日益面临气候变化威胁。本研究首次公布了两个树种的染色体级别参考基因组,并完成了针叶树领域史无前例的重测序工程——涵盖逾1000株挪威云杉样本。研究发现:尽管二者于~1.3亿年前分化,但与被子植物截然不同的是,其基因组保持显著的大尺度基因共线性,未见重大染色体重排或近期全基因组复制的迹象。遗传创新主要源于频繁的片段复制产生新基因拷贝(与反转录转座无关),自云杉/松树分化以来已创造近1GB碱基对的新遗传物质。在这些巨型基因组中,高度结构化的三维染色质构象与表观遗传景观促进了基因可及性与调控:含长内含子的持家基因定位于拓扑关联结构域(TADs)边界,TADs与染色质环驱动基因共表达。木材发育过程的比较转录组分析揭示了片段复制基因的亚功能化与新功能化现象,以及物种间保守与分化的基因共表达模式。群体基因组学分析证实其近期扩张形成具纬度梯度的随机交配群体,并鉴定出气候适应相关受选择基因及地理区隔的基因存在/缺失变异。

引言

挪威云杉(Picea abies L. Karst)和欧洲赤松(Pinus sylvestris L.)是北方森林生态系统的优势基石物种,因其能固定并贮存巨量碳资源而对全球生态具有重大意义¹。这些树种不仅支撑着林业经济,还为传统及新兴领域提供可再生资源,具有重要经济价值。尽管其生态与经济地位关键,针叶树的基因组学研究仍落后于被子植物——这主要源于其基因组庞大且富含重复序列世代周期长以及生长速度缓慢等挑战²,³。

鉴于气候变化威胁日益加剧,且针叶树对全球碳循环贡献显著,当前亟需完善研究资源以深化基础理论,并推动保护、育种及生物技术应用创新。裸子植物以超大且富含重复序列的基因组著称,其规模远超典型二倍体被子植物。这种扩张主要归因于转座元件(TEs)的爆发式增殖,尤其是长末端重复反转座子(LTR-TEs)⁴⁻⁷尽管研究亦发现针叶树存在高丰度伪基因⁸⁻¹⁰,其形成的内在机制仍属未解之谜。

针叶树有高比例的假基因吗?我不知道,可以看一下对应的参考文献。

基因重复是驱动生物进化的重要机制¹¹。在被子植物中,全基因组复制(WGD)事件频繁发生,通常伴随快速的基因组重构与二倍化恢复¹²。WGD后保留的重复基因常经历亚功能化(sub-functionalisation)或新功能化(neo-functionalisation),成为进化创新的源泉。WGD的重要性近期在雪花酵母(Saccharomyces cerevisiae)的长期进化实验中得以验证:WGD后基因组的稳定化促使细胞体积增大并形成更大聚集体¹³。

尽管WGD事件在鲑科鱼类¹⁴及更广谱的脊椎动物¹⁵中普遍存在,其在其他类群中却较为罕见。针叶树近期似未发生WGD事件¹⁶,¹⁷,表明该谱系巨大的基因组扩张另有成因。串联重复与片段重复作为另一类关键机制,可复制基因及其调控区域¹⁸。片段重复已被证实为人类贡献了重要进化创新¹⁹,模型研究更指出:充分的片段重复可引发临界点,导致基因组失控性扩张²⁰——如同驶向"基因组肥胖症"的单程票²¹。

 

20.Abdullaev, E. T., Umarova, I. R. & Arndt, P. F. Modelling
671 segmental duplications in the human genome. BMC Genomics 22,
672 1–16 (2021)
21.Bennetzen, J. L. & Kellogg, E. A. Do Plants Have a One-Way
674 Ticket to Genomic Obesity? Plant Cell 9, 1509–1514 (1997).

然而,针叶树基因组中尚未广泛鉴定出片段重复。与之相反,其基因组富含长末端重复转座子(LTR-TEs),且完整元件(intact LTR 元件孤立元件的比例(solo LTR元件)异常高²²,暗示针叶树缺乏被子植物中抑制基因组扩张的清除机制

这个“与”是原文如此,这里要小心是不是写作错误。

一个典型的 LTR 反转座子(LTR-TE) 插入时结构是:LTR —— 内部编码区 —— LTR
intact LTR 元件:两个 LTR 都还在,内部结构完整
solo LTR:两个 LTR 之间发生同源重组,把中间大片序列删除,只留下一个 LTR
也就是说LTR只插入不删除,是基因组扩长的证据,但是如果是这样,应该是intact LTR 元件比例高而solo LTR元件比例低。

因此学界认为:LTR-TEs通过逆转录mRNA并整合cDNA的活性,构成了针叶树基因组扩张的主因,也是新基因与伪基因生成的主要途径——此机制近期在赤松(Pinus densiflora)特定转录因子家族的扩增中获证¹⁶。

基于短读长测序的挪威云杉基因组组装结果高度碎片化,且规模远小于实测基因组,这严重阻碍了可靠的基因家族与直系同源分析¹⁰;而欧洲赤松目前尚无可用基因组组装。为突破这些限制,我们利用长读长测序、Hi-C染色质构象捕获数据多组学转录资源,为两个物种构建了染色体级别的基因组组装,并完成基因注释。

在挪威云杉研究中,我们进一步探究染色质结构与表观遗传修饰,以解析超大基因组的功能性组织机制。该研究还结合了1000余份挪威云杉个体的重测序数据,揭示其遗传多样性、种群结构、结构变异特征,并鉴定受选择基因我们的分析为以下领域提供新见解:

  1. 驱动基因组扩张的内在机制
  2. 基因组组织结构的功能意义
  3. 片段重复在针叶树进化创新中的作用

结果

串联与片段复制驱动高度动态的基因库演化背景下仍保持超保守的大尺度基因同线性

本研究首次报道了挪威云杉(PA)与欧洲赤松(PS)的高质量染色体级别参考基因组(PA:17.7 Gbp,PS:20.3 Gbp,表S1,图S1)。所有12条染色体均呈现完整的基因空间结构,为针叶树稳健的比较基因组学与演化史研究奠定基础。通过整合大量转录表达数据,完成蛋白质编码基因注释(PA:43,410;PS:49,387)。与其他针叶树一致但迥异于多数被子植物(图S2),两物种存在大量长度超过50 Kbp的基因(PA:n=8484;PS:n=8296),其内含子普遍较长(>15 Kbp)(图S3)导致基因空间占基因组约11%而仅编码序列占比<1%图S4)。我们还首次生成了对活跃的、具有蛋白编码能力的转座子基因的全面注释(表S2)及近期产生的假基因PA:131,696;PS:155,941)。这三类基因在所有染色体上均匀分布(图1a)

这个数量,插个眼吧,有点多了

尽管挪威云杉与欧洲赤松分化于约1.3亿年前(MYA),其时间尺度堪比单子叶与双子叶植物的分化,本研究仍检测到染色体级别的基因顺序高度保守性(图1a)。这种跨越漫长演化时间尺度的基因组稳定性模式,与被子植物中频繁发生的全基因组复制(WGD)、多倍化事件及其后续的高度动态基因组重排现象形成鲜明对比——即便在被研究的大型基因组被子植物中亦是如此。大尺度基因同线性保守性甚至在极远缘的榧树(Torreya grandis)与巨杉(Sequoia giganteum)基因组间依然显著(分化时间约2.67亿年;图S5)

这个图不太行啊,太丑了,不过似乎很有趣

这表明裸子植物中大规模染色体重排极为罕见,且与既往研究一致的是,我们未发现松科(Pinaceae)谱系自榧树分化后存在全基因组复制的证据(图S6)。尽管存在宏观尺度的保守性,挪威云杉与欧洲赤松1:1直系同源基因编码区外的序列相似度普遍较低(图1b),

ok明白了,非编码区的相似度很低,这是没问题的,符合预期的。

这源于大量物种特异的重复基因、假基因及转座元件的插入,揭示了基因组稳定性与频繁复制/衰变驱动的动态演化之间存在复杂的相互作用机制。

 

图1 大尺度基因同线性与局部复制
a. 基于1:1直系同源基因构建的欧洲云杉(Picea abies)与欧洲赤松(Pinus sylvestris)间大尺度基因同线性。各染色体旁轨道分别显示:基因密度(深蓝色)、重复序列密度(浅蓝色)、以及含>10 Kbp内含子基因(深橙色)与不含该长度内含子基因(浅橙色)的基因间距离。
老猫注:说是四个色块,但是实际上只有三个色块,他忘记加最后一个色块了。我觉得这个操作还是比较奇怪滴。
b. 云杉(上)与赤松(下)1号染色体上包含1:1直系同源基因的示例区域。浅蓝色显示重复序列密度,橙红色显示序列相似度。单个基因结构以浅蓝色线条表示,外显子以加粗色块标记。
图b是什么意思?我不太能看得懂。
c. 不同时期(早期、中期、晚期,定义见补充材料)复制基因在染色体上的分布。
“晚期”复制指发生在物种末端分支上,或发生在距今不超过6000万年(60 MY)的物种分化事件之前紧邻分支上的复制事件。
“早期”复制指发生在指向小立碗藓(Physcomitrella patens)的长分支上,以及发生在被子植物与裸子植物分化节点上的复制事件
发生在物种树任何其他分支上的基因复制事件则被视为“中期”复制。
物种树分支及其对应分期的列表可在相关 Figshare 知识库中找到(路径:/Genome/Species_tree_time_table.xlsx)。
为什么单位是0.6,为什么只展示了5条染色体?这也太奇怪了,做这一步的目的是什么?
这个图有问题,至少12条染色体的物种只突出显示前5条,这还是很奇怪的。更不要说百岁兰这个物种有22条染色体,所以图c完全不可信。
d. 不同基因类别中复制距离<10 Mbp的基因占比统计。云杉数据以绿色表示,赤松以棕色表示。
e.f 4号染色体上包含FT/TERMINAL FLOWER1-Like (FTL)基因的同线性位点。蛋白质编码型FTL基因以橙色三角形标注(三角方向指示编码链)。FTL假基因副本以绿色三角表示,其他蛋白质编码基因的假基因副本以紫色圆点表示。各基因间区域标注假基因数量及(括号内)来源染色体数目。侧翼1:1直系同源基因以青色三角显示。
f.e DNA转座元件示例(未按比例)。绿色方框中显示了源自基因PA_chr05_G000452.1的五个假基因中的两个,每个假基因均包含在一个mariner型转座元件的拷贝内。每个mariner拷贝均显示其4 bp的靶位点重复序列(TSD)和31 bp的反向重复序列(黄色方框)

此外我们发现,虽然在两个物种中扩张的直系同源基因群组均富集了包括营养分生组织生长、生殖枝系统发育、防御反应和光周期现象等基因本体(GO)类别,但两物种的假基因均未显示GO富集。这表明基因复制过程在功能层面具有较大随机性,仅部分复制基因被选择性保留。鉴于两个基因组中均存在高比例的LTR-TE残留序列(欧洲赤松:68.7%;挪威云杉:58.2%;表S2),且我们证实其孤立元件比例较低(表S3)。

那么他的结果是支持LTR作为基因组无限制扩张的证据的。

学界普遍认为LTR-TE反转录转座子是针叶树基因创新性的关键驱动因子。然而,尽管LTR-TE介导的复制预期会产生分散的基因拷贝,我们的分析却揭示了一个显著模式:与被子植物相比,裸子植物谱系中功能保留的基因拷贝主要集中于同一条染色体上,表明局部复制是针叶树遗传创新性的主要来源(图1c)。

他这个结论非常重要,直接干掉了另外的一个假说,但是他作为证据的图片表现力太差了。我认为不足以作为证据。

聚焦于挪威云杉和欧洲赤松物种分化后产生的新近基因拷贝进一步证实,大多数基因复制事件具有局部性(间距<10 Mbp;欧洲赤松:69%;挪威云杉:60%),这与近期假基因(欧洲赤松:8%;挪威云杉:7%)及转座元件基因(欧洲赤松:5%;挪威云杉:3%)的低局部复制水平形成鲜明对比(图1d)。

转座元件基因,相较于非转座元件基因,在基因组上更倾向于随机插入。

令人惊讶的是,超过半数的分散基因(欧洲赤松:63%;挪威云杉:64%)和假基因(欧洲赤松:64%;挪威云杉:61%)拷贝保留了内含子/外显子结构,其中许多还保留了启动子区域(表S4),这与LTR-TE介导的反转录转座形成机制相矛盾。

只能说基因复制不是由LRT-TE介导的,但是没有办法说基因组复制是由LTR-TE介导的。

我们还发现大量两个及以上同线基因和/或假基因发生共复制现象,表明存在局部和分散的区段复制事件(欧洲赤松:3580个区段;挪威云杉:3161个区段)。这些复制区段几乎均为物种特异性单次复制事件。

当然是物种特异性事件,因为他的方法应该只能计算出物种特异性事件。

其中局部复制区段平均长度(欧洲赤松中位值:73 Kbp;挪威云杉:52 Kbp)大于分散复制区段(欧洲赤松:9 Kbp;挪威云杉:5 Kbp),该特征与哺乳动物一致。虽然局部区段复制可能由非同源末端连接或尚未发现的螺旋酶转座子驱动,但人工分析显示大型分散区段复制(可达100 Kbp以上)常由DNA转座元件介导例如一个新发现的"Mariner"型DNA转座元件单独关联约1,100个区段,占挪威云杉基因组近0.5%(图1e,图S7)。对于大部分已识别的分散复制事件,其究竟源于DNA转座元件还是其他机制(如非同源重组)仍有待确定。

这个他没做好,我们可以好好做一下,我判断SD的范围不可能那么小。这也不符合他在methods里面的写法,我认为这是一个致命的漏洞。
然后这里有一个新的问题,他这个Mariner"型DNA转座元件是怎么工作的,我也真不知道。

FTL(开花位点T(FT)/顶端花1(TFL1)类)基因家族是物种特异性局部复制的典型例证。在被子植物中,FT/TFL1类蛋白是光周期调控的开花及其他发育过程的重要调节因子。挪威云杉中,已发现一个FTL基因会在生长停滞和芽形成期间的短日照条件下被诱导表达,且学界推测FTL基因可能对针叶树分生组织活性和生长具有更广泛的抑制作用。在挪威云杉11号染色体上存在三个先前未知的FTL基因拷贝(根据命名规范称为PaFTL7a-c),而欧洲赤松中无对应拷贝(图1f,图S8)。对该复制区段的同线性分析揭示了一个含交错排列基因与假基因的复杂基因座。多重拷贝的PaFTL7基因在寒冷胁迫、根系干旱胁迫及体细胞胚胎发生等常伴随生长变化的条件下呈现表达分化证据(图S9),表明复制基因被选择性保留并发生了调控功能分化。

新功能化?但是他的证据并没有在正文中很好的展现出来。那么我把补充图8与补充图9也打印出来:
注意这里是局部重复,而不是片段复制,这里要小心。

 

图S8 被子植物拟南芥与针叶植物挪威云杉、欧洲赤松的FT/TFL1基因家族系统发育关系。图示为基于贝叶斯系统发育学构建的50%多数规则树,各节点旁数字表示后验概率。拟南芥(At)基因名称以绿色标注,挪威云杉(Pa)为黑色,欧洲赤松(Pt)为蓝色。各基因名称后方括号内标注其基因座ID。

 

图S9 挪威云杉(Picea abies)中FTL类基因的表达分析:(a) 整个生长季采集的针叶样本(样本标签标注采样日期);(b) 寒冷胁迫处理样本(样本标签标注处理温度及持续时间);(c) 干旱胁迫处理样本(样本标签标注田间持水量百分比(FC)、或光合作用崩溃时/崩溃后两天的采样点);(d) 不同组织类型的表达谱。图示数值为基于DESeq2计算的方差稳定转换(VST)值,基因按表达量进行聚类。

总之,与被子植物不同,针叶树的遗传创新性并非由全基因组加倍驱动。相反,针叶树在漫长进化历程中表现出显著的染色体同线性保守特征,我们的研究结果有力证明:频繁发生的局部和分散区段复制是松科谱系中产生新功能基因拷贝的主要机制。

他这里之所以说"local"复制,可能是因为"local"可能包括了“片段复制”和“”

尽管针叶树基因组含有大量LTR-TE残留序列,但大多数保留的基因复制事件似乎独立于反转录转座作用。值得注意的是,本研究发现的自挪威云杉/欧洲赤松物种分化以来产生的区段复制序列,累计贡献近1GB的新型遗传物质,这表明该机制对针叶树基因组扩张的贡献具有重大潜力,且该贡献在先前研究中被长期忽视。

他的result里没有独立提及,而是在总结中提及了片段复制

当然,我们开始注意到SD的时候,这篇文章已经投稿了,上预印本是25年7月应该是。我们发现香榧中异常的SD事件应该是25年9月。

高度有序的三维结构与表观遗传调控共同决定针叶植物巨型基因组中的基因组织与表达调控

针叶树基因组极其庞大,基因分布稀疏且含有长内含子,且被大量重复序列分隔,这引发了一个问题:基因如何在如此庞大的基因组中被高效表达和调控?到目前为止,巨型、低基因密度针叶树基因组的全局三维(3D)组织尚未被表征。本文基于染色质接触捕获、表观遗传修饰和幼针染色质可及性,对挪威云杉的 3D 组织和表观遗传架构进行了全面分析。

在其他植物中,染色质组织分析通常识别出 A 区(含活跃基因,开放染色质)和 B 区(非活跃区)。威云杉的染色质接触图揭示了明显的长程相互作用(图 S10),并且在整个染色体上,全局“A”区定位于染色体臂上,而**“B”区**则位于中央(推测为着丝粒区)和端粒区(图 S11)。

然而,更精细的分析显示,这种模式在 sub-A 区域 中也存在,并且在最高分辨率分析的 sub-a 区域 中表现得更加明显(图 2a,图 S12–S15)。类似地,sub-B 和 sub-b 区域 富集了 LTR 转座元件(LTR-TEs) 和低表达基因(图 2a,图 S12–S15)。

 

因此,我们的分析揭示了 分层的三维组织模式(图 S16),这种模式决定了基因的组织与表达,其中 sub-A/B 和 sub-a/b 区分活跃与非活跃区域。

对表观遗传标记的进一步分析识别出了 四类不同的表观遗传类别(图 S17),大体上对应于 两个 sub-a 子集两个 sub-b 子集(图 S18)。

  • 第一类表观遗传类别:代表 sub-a 基因区(图 S18–S21),具有高染色质可及性、基因调控相关组蛋白修饰(H3K9ac、H3K4me2、H3K4me3)以及低水平 DNA 甲基化(CG、CHG、CHH)和基因间转座元件。
  • 第二类:也覆盖 sub-a 区域,但富集了 Polycomb 相关的 H3K27me3 组蛋白修饰,主要位于基因体外(图 S18、S19)。这些 Polycomb 标记区域开放染色质水平较低、DNA 甲基化水平较高,表明在原本活跃的区域中存在局部沉默。
  • 剩下的两类:数量丰富,覆盖了大部分重复序列丰富且基因沉默的 sub-b 区域。

与被子植物相比,全局平均 DNA 甲基化水平较高(CG: 81.5%;CHG: 64.4%;CHH: 3.9%,H 表示非 C 碱基),反映了基因组高度重复的特性,而包含重复序列的两类表观遗传类别在甲基化水平上有所差异。、

基于比较共表达分析识别基因复制与表达差异驱动的进化新性状

我们利用高空间分辨率冷冻切片样本的RNA测序技术,构建了挪威云杉与欧洲赤松木材发育进程数据集(图S34,补充数据1)

空转的数据?

涵盖韧皮部-形成层-木质部连续发育阶段。基于此资源,我们探究了物种内及物种间复制基因是否通过表达差异呈现进化创新证据。比较共表达网络分析表明:物种间存在大量保守共表达直系同源群(表达同源基因,n=5792,图3a)及分化共表达直系同源群(n=501,图3b)表达同源基因的上游调控区序列相似性显著高于非表达同源基因(图3c)

表达分化的基因的变异来源主要是由于启动子变异导致的。

 

哦吼,这张图挺支持董老师的假设的。
但是他不是不同复制基因对的,他是直系同源基因对之间的基因表达相似性。

木材发育过程中具有阶段特异性表达的基因明显富集于拓扑关联域(TAD)内部,而位于TAD边界的基因则呈现更高且更稳定的表达水平(图S35)该发现与哺乳动物等物种的研究结论一致——发育调控基因通常远离TAD边界以实现动态调控。值得注意的是,木材中高表达且广谱表达的基因在针叶中呈现相似特征,暗示针叶树TAD结构可能具有相对静态性。

我们还鉴定了物种特异性基因复制的亚功能化(图3d)与新功能化(图3e)案例

这是案例,不是统计,这是不合适的。这个做法很奇怪。

如:挪威云杉旁系同源基因PA_chr05_G004844与PA_chr05_G000117均未与欧洲赤松单拷贝直系同源基因形成表达同源(图3d),但二者联合表达谱与欧洲赤松直系同源基因高度匹配,表明亚功能化发生。相反,在挪威云杉旁系同源基因PA_chr03_G002209与PA_chr12_G004074中,仅有一个基因与欧洲赤松直系同源基因保持保守共表达(图3e),显示新功能化特征。对应地,仅表达同源基因的上游区域具有高度序列相似性。

最后,我们观察到物种内片段复制区域的旁系同源基因存在表达分化与功能拷贝差异性保留现象(图3f),这为差异假基因化及表达调控提供了明确证据,进一步支持片段基因复制作为针叶树进化创新的重要来源。

数据是好数据,结果是好结果,但是这个工作很奇怪,非常奇怪。

基于千个挪威云杉基因组的解析揭示基因间区与结构变异广泛存在并鉴定受选择压力基因

为解析挪威云杉的演化历史并探究其遗传多样性、功能适应与分化机制,我们对覆盖该物种全分布区的1000余个体进行重测序(图4a)构建迄今最大规模的针叶树全基因组群体遗传资源(n=1056,补充数据2,表S5)。单核苷酸多态性(SNP)主成分分析显示极弱的群体结构:首主成分仅解释约4%变异且反映纬度梯度(图4b,图S36),仅分析编码外显子SNP时仍呈现相似模式(图S37)。南北极端群体间遗传分化指数FST≈0.09(表S6),进一步证实低度群体分化。群体突变率(瓦特森θw)高于核苷酸多样性(π),配合负值Tajima's D(-1.05),暗示近期群体扩张(图S38)。近交系数整体较低(表S8)且群体间无差异(北方FIS: -0.0076,南方FIS: 0.0147)。编码区核苷酸多样性保持中等水平(πCDS=0.0060),与既往研究一致;而内含子(π内含子=0.0096)与基因间区(π基因间区=0.0158)多样性显著高于既往估值(表S7),此差异源于早期基因组草图中大量区域无法实现可靠变异检测。遗传多样性(π, θw)在基因编码区周边快速降至背景水平,表明基因受到明确选择作用(图S38)。综上,这些结果符合末次冰盛期后扩张形成的随机交配群体模型,该群体具有低度亚群分化特征。

重测序数据与染色体级别组装首次实现对挪威云杉全基因组选择位点的综合分析:89%的选择信号位于基因间区。基因内部选择信号筛选出覆盖全分布区个体的初选基因集(n=679;补充数据4),并通过纬度梯度极端群体间对比(每个基因选取顶级SNP)鉴定差异选择基因(n=8995;补充数据4)。在群体范围及南北对比中均存在选择信号的319个基因(补充数据4)显著富集于筛管细胞分化、花器官形态建成等GO功能类别,这些基因为后续演化与功能机制研究提供候选靶标。典型案例是CONSTANS-Like(COL)家族的局部复制基因(图4c)——该家族在被子植物中调控开花时序与逆境响应,研究推测其可能调控油松的芽形成与开花时间。该基因的两个复制拷贝呈现差异化选择信号(图S39),揭示局部复制产生新功能的演化潜力。

基于高测序深度个体子集(n=296)的分析显示,群体内存在基因与假基因的变异分布(图S40)值得注意的是,基因编码序列及假基因的存在/缺失状态可区分南北群体个体,表明挪威云杉泛基因组变异存在空间隔离(图4d,图S40)。这些变异基因部分属于动态大基因家族,部分则为单拷贝基因,涵盖特化代谢物合成、光响应、生物胁迫等通路,亦包含功能未知的保守基因及谱系特异性基因。

他是用测序深度判断的PAV,下面是他原文的做法:
该分析基于296个高深度重测序个体数据集。特征存在定义为:基因/假基因序列中>20%的区域具有测序读段覆盖。

这个方法确实是太low了,他的基本单位是基因而不是基因组,也就是说,他从头到尾没有分析群体中的SD事件,这是很遗憾的。等他数据publish了我们在香榧中在试一次。

 

SD的鉴定方法

片段复制与同线性区块分析

为检测多基因复制事件,采用滑动窗口法(窗口大小2-12个基因座,步长1)对蛋白质编码基因及假基因进行全基因组扫描。若存在非重叠且未被更大区块包含的HOG10直系同源基因序列区块(正序或反序排列),则保留为同线性区块。这些同线性区块反映了大规模片段复制的基因组区段。

HOG10家族 = 在系统发育树某个祖先节点定义的一组来源于同一祖先基因的同源基因集合,用于更可靠地比较基因顺序和检测共线/SD。

这个方法不行真的,这个方法很明显只能识别近期的SD事件。而且这个工作有个问题就是,他这个中位数片段大小为什么会这么小啊。这么小的片段至多覆盖一个基因,这是很反常的。

现在再来看这个方法,其实应该是可以的,我的问题是,假基因和真基因怎么就能够排列在一起相互比较了?应该是需要有共定位的吧?

对于分散复制的基因片段,提取侧翼区域(±50 Kbp)并通过Dotter工具进行比对,经人工核查识别指示复制机制的序列特征(如DNA转座元件)。利用反向重复、靶位点重复等特征标记,采用Scan for Matches工具(访问链接:https://blog.theseed.org/servers/2010/07/scan-for-matches.html)实施全基因组扫描。

假基因的识别

假基因的识别通过以下方法实现:使用BLAT比对工具,将注释蛋白质编码基因的外显子序列与基因间区进行比对。经过重复序列屏蔽的比对结果需满足50%(coveage)与50%同一性(identity)的阈值要求,未达标者将被过滤。

外显子-外显子连接区分析确定复制机制:

若蛋白质编码源基因中复制的外显子在假基因内呈连续排列且不含内含子,则该连接区被判定为逆转录形成。符合以下标准的假基因将进行分类:

逆转录假基因(Retrotransposed):至少存在一个逆转录形成的外显子-外显子连接区。

片段重复假基因(Segmental duplication):不符合逆转录标准的其他情况。

这种结构称之为“片段重复假基因”恐怕是不太合适的,最好是称之为

这样看,应该是可以的。计算的时候还可以顺便把单拷贝的基因给估计出来?