(文献)Helixer_ 结合深度学习和隐马尔可夫模型的初步真核基因模型预测
摘要
- 准确的基因识别对于理解生物学功能至关重要,但在许多新近测序或较少研究的物种中,这仍然是一个挑战。在此,我们介绍了Helixer,一种基于人工智能的工具,用于基因的ab initio预测,能够在真菌、植物、脊椎动物和无脊椎动物基因组中提供高精度的基因模型。(ab initio,从头预测,基因组注释中预测基因的一种方法,主要是利用基因组序列自身的信息,通过算法和模型如HMM进行基因挖掘。准确性较低,经过充分训练后的物种预测模型精度会提升,但这些经过较为充分训练的预测模型一般只有模式生物有,研究较少的物种没有,往往需要使用者自行训练或者使用其他物种的预测模型作为替代。)与传统方法不同,Helixer不需要额外的实验数据,如RNA测序,从而使其能够广泛应用于各种物种(传统的从头预测模型是物种针对性地进行训练,训练用的数据主要来自通过RNA测序中所获得的以表达的基因数据。)。我们展示了Helixer的预训练模型在多个评估指标上达到了与现有工具相当或更高的准确性,生成的基因注释与专家校订的参考数据高度吻合(有待参考,没有看到通过Apollo或者IGV-GSAman的手动注释图片,只有一部分的表格和绘图。手动注释是借由专业知识,通过可视化工具和RNA测序等实验数据对基因结构进行逐一校正,准确性是最高的,但是相对最没有效率的。而当下的基因组注释方法基本是通过计算的方式获得,有点类似手绘和AI提示词跑图的意味)。其设计使得在不需要重新训练的情况下,即可在基因组上立即使用,为研究和应用环境中的基因组注释提供了高效、可访问的解决方案(这篇文献是25年12月发表的,推出的helixer版本应该是0.3.6,我在25年初写的论坛:https://www.kdocs.cn/l/cjfi9Fl1byv8?kmonFrom=k_Index_Search&from=kdocs_pc_web&startTime=1773041868878&traceparent=00-0819876d5d3b6d3f98f911e2dd91db90-86bc8c3f427c36de-01-10中使用的helixer版本是0.3.4,这个工具使用其他确实如同文献里面描述的那样,可以直接进行基因预测工作。至于准确性如何,我并没有进行验证,那个时候也没有什么能够用来评估这方面的工具。)。该工具可通过GitHub作为开源软件进行本地安装,也提供了在线网页界面,用户还可以通过Galaxy ToolShed使用。(本地:GitHub - usadellab/Helixer: Using Deep Learning to predict gene annotations · GitHub)
introduction
- 基因组测序和组装的重大进展已经导致基因组数据的迅速增加(根据pubplant(PubPlant - Published Plant Genomes)对已发表植物基因组数量的统计也能够看得出来,这些年基因组的数量在呈现指数级的上升)。为了分析这些数据、提取生物学知识,从而加速生物学和生物工程领域的研究进展,迫切需要准确且快速的in silico模型(基因组注释中,主要有三种方法进行基因挖掘。一个是利用转录组数据,这种实验性数据能够挖掘到已表达的基因,最准确但无法检测未表达或低表达的基因;同源注释,一部分基因的编码蛋白具有较高程度的保守,这些基因在多个物种中存在,因此可以利用这一特性,借由已注释的物种的蛋白序列和待注释基因组比对等,挖掘这类保守的基因;第三种就是通过算法和模型进行基因预测的,虽然不太准确,但较为全面。而且,现在主流的注释方案都是将三种方法整合到一起,提取共识基因区域。)。基因调用或结构基因注释在这一过程中起着至关重要的作用,但近年来在这一领域的进展相对滞后。
- 历史上,真核生物基因调用主要依赖于(广泛使用的)隐马尔可夫模型(HMMs),例如GeneMark-ES、FGENESH或AUGUSTUS。然而,这些模型本身缺乏充分建模生物复杂性的能力。因此,它们目前通常作为数据集成管道的一部分,例如MAKER、PASA、TOGA和BRAKER等。这些管道在使用湿实验数据(如RNA测序)或其他外部证据(如同源蛋白质或包含重复元素的数据库)时表现最好,并且需要大量的计算资源,往往成为基因组项目的瓶颈(以香榧为例,2Gb的序列,300mb的蛋白质序列,以及1个Gb的bam文件,在92上跑BRAKER3需要花费2天左右的时间;maker的话,使用硬屏蔽后的基因组序列,跑一次需要1-2天,使用软屏蔽后的基因组序列的话,时间会更长。这两个是使用比较广泛的注释管道,其他的没有用过。)。此类资源的不可预测可用性导致生成的基因模型质量参差不齐。即使在像人类和小鼠这样的 extensively 研究的物种中,基因模型中也仍然存在错误;而在研究较少的物种中,较低的总体注释质量在大规模分析中会造成干扰,并且可能需要针对特定项目的重新注释(植物中提到最多的是拟南芥的多个版本注释,以及水稻不太准确的注释,其他的往往在新的基因组发布后才会更近新的版本的注释信息,很少有见到存在多个注释版本的)。进一步说明这一点,许多新测序的物种缺乏任何注释,在最新的真核生物基因组装配中,只有约24%的基因组在国家生物技术信息中心(NCBI)数据库中附有注释,这与89%的原核生物基因组相比,落后得远。因此,迫切需要改进工具,能够轻松产生一致的高质量注释,并为下游应用如靶基因表征、转录组学、蛋白质组学、全基因组关联研究等提供坚实的基础。
- hellixer提供了用于真菌、无脊椎动物和哺乳动物基因组的预训练模型,除了之前可用的植物和脊椎动物模型之外,Helixer不需要外部数据或物种特定的重新训练。
Results
- Helixer 是一个基于深度学习的框架,可直接用于真核生物基因组注释。它使用序列标记神经网络来预测基因组特征,包括编码区、非翻译区(UTR)和内外显子边界。其架构结合了卷积层和递归层,以捕捉局部序列特征和长程依赖性,随后通过生物学信息的解码步骤组装一致的基因模型。Helixer在高质量参考注释上进行端到端训练,能够跨物种进行推广,无需转录组数据或同源性证据。该设计使得注释的一致性得以保障,同时最大程度减少了人工校正,提供了一个可扩展的解决方案,适用于新序列基因组的注释,并支持大规模比较基因组学研究。
- helixer提供4个类群的预测模型,包括陆地植物、脊椎动物、真菌和无脊椎动物等。新发布的模型虽然具有更均衡的性能,但在不同物种的预测工作上,对应类群的模型表现最好,也就是选择适合类群的预测模型。
- 将helixer和AUGUSTUS、GeneMark-ES这两种传统的HMM从头预测工具评估比较,helixer在植物和脊椎动物的预测表现追高,真菌中表现相对较弱,无脊椎动物中保持微小优势。
- 与专门用于哺乳动物的预测工具Tiberius相比,即使专门训练用于哺乳动物的分支模型,helixer的预测效果,在基因召回率和精确度方面要低。
- 将helixer预测的拟南芥基因组的基因集与拟南芥的参考注释TAIR10、Araport11相比,超过7成的预测基因完全匹配,将近3成的基因高度相似,并预测到了一部分新的基因。
- 相较于AUGUSTUS等从头预测工具,helixer在性能方面更加优越,27分钟注释263mb的水稻基因组,8.5小时完成3.3gb人类基因组的注释工作
Discussion
- helixer在不需要任何外源数据,可以直接对基因组序列进行注释,也不需要对其进行重复序列屏蔽的工作。但是,如果是和使用了转录组数据、同源数据(同源物种蛋白质序列等)以及经过重复序列屏蔽后的基因组,在这种情况下,helixer的预测结果还无法超越现有的,只能说相对接近。而且,前者需要更好的计算成本和时间,以及专业知识等,这也是文中提到的。反过来,在缺少上述的一些数据的情况下,helixer能够返回超越传统基于HMM预测工具的注释效果。
- 在一项基于54种作物植物的helixer和BRAKER2(利用蛋白序列来优化预测效果)的注释工作比较中,helixer只在整体的编码序列准确性方面能够做到和BRAKER2相当,完整性方面较低。也就是说,这个工具还是无法超过现有的管道式预测工具BRAKER,BRAKER2尚且如此,BRAKER3更不用说了。
- 总结来说,helixer作为一种基于深度学习这种新技术而开发出来的工具,在部分方面超越了传统基于HMM的预测工具。如果要快速获取一个基因组序列的注释,使用helixer也是可以作为一种选择。但是,在各方面数据完备且具有足够充分的计算条件的情况下,还是现有的注释流程或者注释管道更好。至于helixer的预测结果,只能当做新的一种从头预测整合进现有的方案当中,这应该是最合适的。
吾辈对helixer工具的评估
- 很好用,拿香榧2号染色体丢进去预测,能够预测到大部分的基因。作为一种预测工具,可以整合到现有的注释策略中。
- 下限高,上限低。精确度和完整度还是无法和现在主流的综合的注释方案相比,但也有很多优点,比如速度快,预测的速度方面,1.2Gb的DNA序列只要半天就可以完成,效率还是挺高的。,也不需要重复序列屏蔽,这可以说是最大优势。精确度方面虽然比不上综合预测方案,但作为补足可以使用、
- IGV可视化helixer的预测结果,helixer能够预测到香榧存在的大部分基因
- 对部分内含子较差的基因的预测效果也还行
- 不过,不分基因的预测结果有些过于片段化,但相对而言质量还是比较高的。
- 把helixer的预测结果(褐色)和nc(蓝色),ba(绿色),va(红色)比较了一番,helixer也能够预测到前面两种方案种漏掉的部分基因。
- 现阶段是没法通过“计算的方式”整合进去了,但可以用在IGV可视化,调整基因结构和挖掘新基因上面,作为除了RNA证据外,额外的一种重要的参考。