文献:Welcome to the big leaves: Best practices for improving genome annotation in non‐model plant genomes
链接:Applications in Plant Sciences
摘要
- 目前缺乏用于评估真核生物结构基因组注释质量和完整性的稳健标准。大多数基因组注释软件是在模式生物基础上开发的,通常缺少全面评估最终预测结果质量和准确性的基准测试。
- 虽然有一些评价指标,比如AED和BUSCO完整性评估,但应用并不是很多,信服力也没那么大。相较于已经趋向于成熟的注释流程,质量评估体系现在才刚开始。
- 植物基因组注释具有挑战性,因为基因组庞大,转座子数量种类多
- 目标是蛋白编码基因,且转座子不是特别重要的话,剩余的果然是算力了,对于基因组较大的物种来说。
- 仅依赖RNA测序比对获得的转录本并不足以完成基因组注释。建议采用结合基于证据和ab initio预测的方法,并且短读长和长读长的组合能提升基因组注释质量。
- 最常见的是ab intio加蛋白比对加RNA-seq比对的整合注释方法
- 用于评估注释准确性的指标包括:基因结构特征、互惠相似性比对结果,以及单外显子和多外显子基因数量等,这些能提供更全面的视角。
- 尽管基因组组装在准确性和连续性方面取得显著进展,结构性注释依然面临巨大挑战。该过程需明确基因组中蛋白编码基因、启动子和调控元件的物理位置,后续则是功能注释,即为这些特征分配生物学意义。准确的注释为研究物种进化、群体动态与功能基因组学奠定基础。然而,即使是研究充分的模式物种,其注释中仍常出现错误,且这些错误会在后续分析中被放大
- 这里指的模式物种可能是水稻,在其他文献中也经常被提到
- 在大多数真核生物中,注释工作复杂,原因包括序列模式不完全保守、内含子长度变化大、基因间距可变、可变剪接现象普遍,以及转座子和伪基因密度高。因此,结构注释过程需要更高级的生物信息工具与技能,以整合和操作大规模数据
- 这里提到的大规模数据,应该是转录组数据;作为三种结构注释来源,通过RNA-seq比对得到的基因模型,可以提供最准确的基因结构。因为转录组数据具有时空特异性,无论怎么测序应该都没法覆盖一个物种的全部基因,但数据量足够多的话,应该能够减少缺口。
- 而且,上面提到的序列模式不完全保守,应该指的是通过蛋白序列相似性比对进行注释的局限性。
- 若能获得来自 RNA-Seq 或蛋白比对的外源证据,工具包如 MAKER和 BRAKER(能协助训练 ab initio 预测器。这些流程能利用目标物种自身数据以及近缘物种的外部证据,有效整合各种输入。然而,最终仍需通过下游工具进行筛选与优化。
- BRAKER是一个从头预测的pipeline,自动化程度高。MAKER更像是一个框架,它提供了从重复序列注释到EVM整合的全部内容,根据需求进行配置。如果不限制AED,即使限制了AED,通过MAKER得到的从头注释基因模型数量也非常大,那些文献中提到的几十万个基因模型多半就是MAKER注释的。因为量大,所以必须增加一个基因模型的筛选内容。相较之下BRAKER就比较少一些。
方法
- 选择了鹅掌楸(Liriodendron chinense)黑杨(Populus trichocarpa Torr. 版本3)(Tuskan et al., 2006)月季(Rosa chinensis Jacq.)拟南芥(Arabidopsis thaliana,TAIR10)常见卷柏苔(Funaria hygrometrica Hedw.)作为测试用的目标物种。
- 数据都是从NCBI上下载,包括基因组数据、转录组数据(短读长和长度长)以及蛋白数据
- 转录组数据处理
- 原始测序文件预处理
- 短读长通过HISAT2比对到参考基因组上,长度长数据则是通过minimap2比对
- 蛋白证据
- 通过 Trinity 组装的 de novo 转录组和 StringTie2 构建的 genome-guided 转录本生成,随后用 TransDecoder 预测编码区,并以 BUSCO 和 gFACs 评估完整性和注释质量。此外,还引入了 OrthoDB 提供的全长外源蛋白以优化 BRAKER/TSEBRA 注释。
- 相较于使用其他近缘物种的蛋白,这里核心都在于利用转录本信息预测蛋白质编码区,本质还是RNA-seq的数据
- 通过 Trinity 组装的 de novo 转录组和 StringTie2 构建的 genome-guided 转录本生成,随后用 TransDecoder 预测编码区,并以 BUSCO 和 gFACs 评估完整性和注释质量。此外,还引入了 OrthoDB 提供的全长外源蛋白以优化 BRAKER/TSEBRA 注释。
- 使用三项指标评估不同注释方法:
- 单外显子/多外显子基因比例(理想值约 0.2);
- BUSCO 保守单拷贝直系同源基因完整度(植物推荐 >95%);
- EnTAP 跨数据库功能注释比率(推荐 >80%)。
- 基因模型过滤
- 使用 gFACs 过滤单外显子和多外显子冗余基因;
- 利用 InterProScan 和 Pfam 保留含功能结构域的单外显子基因;
- 去除无 EggNOG 注释或无相似性比对的多外显子基因;
- 最终用 BUSCO、EnTAP 和 gFACs 再次评估完整性和注释质量。
- 注释的大致流程
- 重复序列注释和屏蔽
- 运行包括MAKER和BRAKER在内的从头注释,搭配不同的外源证据作为训练辅助用,包括蛋白、短读长RNA-seq和长度长RNA-seq
结果
- 在本研究中,五个植物物种的基因组大小从最小的拟南芥(约 119 Mb)到最大的鹅掌楸(约 1.7 Gb),相差近十倍。鹅掌楸与月季的重复序列含量较高(分别为 73.18% 和 60.53%),而拟南芥最低(23.6%)。BUSCO 分析显示除 Funaria(82.4%)外,其余四个物种的基因组完整性在 94%~99% 之间,但注释文件的蛋白模式 BUSCO 得分普遍低于基因组模式,鹅掌楸降幅最大(从 98.6% 降至 75.1%),说明结构注释存在挑战。
- 鹅掌楸注释质量变化较大应该是基因组组装质量较低
- 注释策略对比分析
- StringTie2:注释的 mono:multi 比例(单/多外显子)优于 BRAKER,注释率和 BUSCO 得分也较高,尤其在 Funaria 中,EnTAP 注释率从 BRAKER 的 40% 提升到约 60%。
- MAKER (RM2+):在 Arabidopsis 和 Funaria 中表现尚可(例如 Arabidopsis 的 BUSCO 达 90.4%,mono:multi 比例为 0.22),但在 Populus 中表现不佳,仅注释出 7000 个基因,BUSCO 仅 19.6%。整体预测准确率低于 BRAKER 和 TSEBRA,因此在后续分析中被排除。
- BRAKER 和 TSEBRA:TSEBRA 整体表现最好,特别是结合 OrthoDB 蛋白的预测(TSB(SR/OrthoDB)),BUSCO 可达 98.9%。但其 mono:multi 比例最差,最高可达 1.27(Funaria)。
讨论
- 评价基因组注释质量的3个有用的指标
- BUSCO 评分(最常用的)
- 单外显子与多外显子基因比值(mono:multi ratio)
- 列相似性评估
- BUSCO可以帮助我们识别绝大多数种子植物中保守的完整、重复、片段化以及缺失的单拷贝直系同源基因。当缺乏高质量的参考注释时,BUSCO 是一个可靠的评价工具。较低的 BUSCO 得分通常直接反映出注释中存在严重问题;然而,较高的 BUSCO 得分并不意味着注释质量高。在 文中BRAKER 的 18 个运行结果中有 6 个,以及 StringTie2 的 17 个运行结果中有 4 个,其 BUSCO 完整度超过 95%,但它们的总基因数、基因长度和结构存在显著差异。
- 吾辈对BUSCO的理解是:注释的最低标准,可以这么说。比方说,要画一副人的完整肖像图,怎样才算把一个人完整的画出来,又或者一个完整的人包括哪些特征。比如一对手脚、眼睛、耳朵......这些反映到BUSCO的评估上面就是单拷贝支系同源基因,这些在一类物种中保守的,反映共有特征的基因。
- 基因重复内容,尤其是 长末端重复序列(LTR) 和假基因,可能会导致基因模型数量的膨胀,特别是单外显子基因数量的虚高。据研究,真核生物中单外显子基因的比例通常应低于 20%。虽然 BUSCO 得分表现一致,但我们观察到 BRAKER 注释结果中单外显子与多外显子基因模型的比值变化巨大。
- 在实际应用中,比起较差的 BUSCO 得分,较高的 mono:multi 比值(即单外显子比例较高)更可接受。因为丢失的基因,特别是保守基因,难以补救,而可能存在的假阳性(如错误预测的单外显子基因)则可以通过其他手段进行过滤。
- 所以,经常,倒也不是特别多,能够看到有的物种注释了几十万个基因模型,然后筛选再筛选,保留最准确的几万个基因模型。目的就是为了扩大撒网范围,把大鱼小鱼(真的假的基因)先一网捞上来,丢掉不需要的,保留需要的。
- 序列相似性搜索指标的解释更复杂,但在使用高质量、人工校注的数据库(例如 NCBI RefSeq)时,可以作为一种有效的评估标准。双向 BLAST 搜索要求查询序列与目标序列在比对中保留一定的覆盖度。对于生命进化树上“黑暗分支”中的新植物基因组来说,这种方法可能不太可靠。某些物种在数据库比对中可能表现较差,因此,搜索蛋白结构域可以在一定程度上提供注释的可信度。
总结
- 这篇文献最主要的贡献果然是各种注释用的生信工具,对不同大小的基因组,在不同的数据搭配(蛋白/RNA,蛋白&RNA)下的运行结果。虽然基因组大小和香榧差的比较大,但从重复序列比例上来看倒是挺近的,这样的运行结果也能够提供一定程度的参考。
- 三个质量评估的标准,除了BUSCO外,其余两个是新的概念(to me),撇开最后一个没怎么细讲且看了也不是很懂以外, mono:multi 比值是一个值得在意的地方。相较于原核生物,真核生物的基因更加复杂,植物比动物复杂,裸子植物这些超大型基因组又会比拟南芥之类的小型基因要复杂。相较于但外显子,多外显子的基因结构更加复杂一些。因此,这个比例标准在某种程度上能够用于衡量物种注释结果的总体质量,即预测的结果是否与物种基因组本身相适应。
- 比如说,裸子植物具有超长内含子,那么注释得到的较长基因也符合这一类植物基因组的特征。这个 mono:multi 比值也是差不多相似的道理。
- 第三点,注释的策略的调整。注释的开始是人工注释,也被称为黄金标准,但不是所有物种都能够像人类参考基因组那样享受超规格待遇。所以,各种生信工具被开发出来注释,也形成了一套比较完整成熟的注释方法。结合从头、蛋白、转录组的综合注释策略是最常见的,随便找个文献也能够复制并使用。在这基础上,接下来的注释策略方向应该是扩大从头注释的基因模型预测数量,并建立起一个较为完整的基因模型筛选流程来适应。增加注释基因的物种覆盖度的同时,尽可能地提升,或者说保证质量不下降。