文献:Genome annotation: From human genetics to biodiversity genomics
总结
在未来十年内,将对约180万种真核生物的基因组进行测序。识别这些基因组中的基因对于理解物种生物学至关重要。然而,由于真核生物基因组转录复杂,编码数十万种不同类型的转录本,这一任务颇具挑战性。在这些转录本中,一小部分蛋白编码的mRNA在决定表型方面发挥着不成比例的重要作用。由于其序列高度保守,可以建立同源关系,从而有可能定义真核生物蛋白编码基因的通用目录。该目录将有助于揭示驱动真核生物表型出现的基因组事件。本文简要回顾了蛋白编码基因预测的基础知识,讨论了完成人类基因组注释所面临的挑战,并提出了在整个真核生物生命树上生成注释的策略,为获得全基因目录——地球的生命密码——奠定了基础。
这篇文献提出的一些观点
- 构建所有真核生物的基因组目录,找到合适的节点和代表性的真核生物物种,构建这些物种的高质量基因组注释(宏观层面上)
- 注释方法主要依靠深度长度长RNA-seq来注释这些物种,生成高质量注释。但因为这个方法成本较高,所以只能选择少数代表性的物种
- 然后,依据进化关系邻近的物种存在的保守序列,将前者高质量的注释通过同源比对或者映射的方式应用到相邻的其他物种上。即使不能覆盖所有基因,但也足以构建一个优质的基因集基础,为后续的展开做准备。
- 大规模组织人员进行人工注释
- 现在的注释流程基本是自动化的注释,但人工注释能够解决一部分前者无法应对的问题,比如序列保守性较差的基因
- 容器化工具和领域特定语言(DSL)的发展为这个奠定了基础。通过容器话封装,能够提前部署好软件、环境依赖等相关配置,之后只需要准备好相应的pipeline和操作方法和标准,就能够批量地教会更多人学会手动注释矫正。
- 现在随便一个物种都有几万个基因,一个人完成基本是不可能的,如果将作业分散开来,确实能够极大的提高效率,但是这个方法不太现实。
- 改进蛋白编码基因预测的计算方法
- 从头预测,更多依靠序列本身的特征,而不是依赖已知编码区训练的数据驱动方法
- 蛋白质序列与基因组序列的比对方法,能够跨越越来越远的进化距离
引言
- 生物体的性状主要编码在其基因组中,具体来说,是位于特定基因组区域的基因。基因仅占大多数真核生物基因组的一小部分(在人类基因组中约为 5%)。将基因识别并映射到给定的基因组序列中,通常称为基因组注释。
- 基因组注释的重要性:如果没有对基因及其转录本进行准确注释,基因组序列的价值是有限的,因为正是通过基因,我们才能将基因组序列与生物体的生物学特征联系起来。
- 在操作层面上,基因通常可与转录单元相关联,即基因组 DNA 序列中被转录为 mRNA 或其他功能性 RNA 的区域。
- 基因识别是指在基因组中确定功能性 RNA 的位置,并推断其核苷酸序列
- 通过转录组测序识别基因具有挑战性:
- 细胞内 RNA 丰度动态范围极大
- RNA 的时间与细胞类型特异性
- RNA 在亚细胞结构中的异质性分布
- RNA 半衰期差异
- 从 DNA 到成熟 RNA 的加工步骤复杂
- 基因识别的方法(综合/计算)
- RNA 测序:直接提供转录证据;
- 从头预测方法(ab initio):利用蛋白编码区的序列特征,如密码子使用偏好、典型的剪接位点与起始密码子附近的基序;
- 比较计算方法(同源比对):利用蛋白编码序列相较非编码区的进化保守性,与已知蛋白质或其他物种基因组比对以推断潜在编码区。
- 基因识别的方法(实验)
- 由于计算方法的准确性有限,早期研究尝试获取人类全部基因的全长序列。这需要分离 RNA、反转录为 cDNA 并进行片段化,技术难度高且成本昂贵。随后,研究者发展了 EST(表达序列标签)和全长 cDNA 测序,将其映射到基因组序列以直接证明基因存在,并识别基因的 5′ 与 3′ 非翻译区(UTRs)。
- 随后,高通量测序技术的发展及其在 RNA 测序(RNA-seq)中的应用,进一步完善了 EST 所揭示的人类转录组复杂性。研究表明,lncRNA(长链非编码 RNA)的数量与蛋白质编码基因数量相当,而且可变剪接在几乎所有人类基因中普遍存在。不过,早期的 RNA-seq 技术生成的序列(reads)通常短于成熟 RNA 的长度,因而难以组装出完整的转录本序列,并且在基因组注释中用途有限。
- 随着技术进步,人们能够高效测定超长核苷酸分子序列。当其应用于 RNA 测序时,长读长测序方法克服了短读长技术的限制,可以直接获得完整转录本的序列,并已被用于构建高质量的注释。理论上,长读长 RNA-seq 读段能够轻松比对到基因组,并准确解析转录本的外显子结构。然而,由于当前长读长技术在文库构建流程以及测序错误率和错误类型上的限制,仍然需要复杂的生物信息学处理来建立转录本模型,而这一过程并不简单。
构建完整人类基因与转录本目录的挑战
当前的基因与主要资源
- 目前,人类基因与转录本的注释依赖于计算方法、不同类型的 RNA-seq 技术以及专家的人工校对。尽管已有数十万转录组数据集被用于研究,人类基因的确切数量仍未完全确定。
- 最主要的两个基因和转录本目录是 GENCODE 和 RefSeq:
- GENCODE 注释了约 6 万个基因和 25 万个转录本,其中包括约 1.9 万个蛋白质编码基因和 8.9 万个蛋白质编码转录本。
- RefSeq 的基因数量与 GENCODE 相似,但转录本数量较少(约 15.5 万)。蛋白质编码基因的数目估计相对稳定,但是否还存在大量小 ORF 或非典型 ORF 仍未确定,这类小肽编码潜力难以验证。
- 相比之下,ncRNA 的基因数目至今仍存在极大不确定性。GENCODE 中约 1.9 万,而 NONCODE 数据库则收录了近 10 万,这种差异源于 GENCODE 的严格人工校对与 NONCODE 自动化预测策略的不同。由于 lncRNA 缺乏显著的序列偏好和进化保守性,其识别主要依赖 RNA-seq,而低丰度和细胞类型特异性进一步增加了检测难度。
技术与实验层面的限制
- 要获得全面的转录本目录,RNA-seq 在多个环节上仍面临限制:
- 文库制备偏差:RNA 提取、加工、转化为测序文库时,会因转录本长度、修饰、细胞定位和结构特征等产生偏倚。
- 分级策略:不同实验会人为地划分“长”与“短”RNA(通常以 200 bp 为界),这导致部分小 RNA 类群(如 piRNA、PARS 等)研究不足。
- 样本来源问题:大多数 RNA-seq 来自手术切除的病变组织或尸检样本,因而可能丢失健康组织中活体状态下才表达的转录本。
- 虽然空间转录组学可以在体内直接可视化 RNA,但通常只能检测已知的标注转录本,无法覆盖所有未知转录事件。
人群多样性与个体差异
目前的人类基因注释存在 人群偏倚:数据集多源自欧洲裔个体,其他人群的转录组多样性尚未充分覆盖。构建一个真正普适的基因目录,需要在不同人群中开展更广泛的长读长 RNA-seq。
概念与本体论上的挑战
- 人类基因目录不仅是技术问题,还涉及“什么是基因”的定义。
- 传统上,基因被视为离散、边界清晰的“珠子串”,但现实中转录本常常存在重叠、边界模糊,形成 连续体 而非离散单元。
- 基因与假基因的区分 并不绝对:许多假基因会被转录,并具有功能。
- 蛋白质编码与非编码的界限 也很模糊:大多数蛋白质编码基因会同时产生非编码转录本,而不少 lncRNA 含有潜在可翻译的 ORF,可能是新生蛋白编码基因的来源。
- 因此,基因目录并非单纯的分类清单,而更像是一个 从非编码到编码的功能连续谱。同一个转录本在不同环境或细胞条件下,可能既表现为 lncRNA,也可能作为蛋白质编码基因发挥作用。
应对方案
- 更精确的测序与文库技术;
- 覆盖不同人群的转录组数据;
- 在体内、实时的多组学检测;
- 以及更灵活的基因定义与分类框架。
从人类到全真核生物:基因组注释的拓展
背景与目标
- 截至 2022 年底,已有约 1 万个真核生物基因组被测序,仅占已知物种的 0.5%。
- **地球生命基因组计划(EBP)**及其子项目(如 Darwin Tree of Life)旨在测序所有已知真核物种的基因组。
- 基因注释的准确性是 EBP 影响生物学研究的关键。人类基因组注释的经验将对整个生命树的注释策略具有借鉴意义,但其他物种的研究资源远不及人类。
当前的注释方法与技术瓶颈
- 目前多依赖 自动化流程:结合 ab initio 预测、比较基因组学和 RNA-seq 数据。
- 长读长 RNA-seq 是未来趋势,但局限在于:
- 成本高;
- 很多物种难以获取足量高质量 RNA;
- 只能在有限物种中可行。
- 因此,应战略性地选择在系统发育树上的关键物种开展深度测序,再将结果扩展传播到邻近类群。
- 长读长 RNA-seq 是未来趋势,但局限在于:
分层式(层级化)注释策略
技术难点与解决思路
- 低丰度转录本难以检测
- 受限于测序深度,很多低表达转录本会遗漏。
- 已有人类方法:靶向特定基因组位点的长读长 RNA-seq,或去除高丰度转录本。
- 但在未知基因组中难以应用,因此需要开发不依赖先验信息的归一化方法。
- 潜在方案:利用 纳米孔测序的选择性测序能力,避免重复测序高丰度转录本。
- 全长转录本捕获问题
- 理想的文库应覆盖完整的 5′ 到 3′ 端,以便定位启动子、理解调控机制。
- 目前的技术包括:Teloprime、CAP trapper、CAGE 等。
- 计算与注释迁移
- 即使有 RNA-seq 数据,仍需计算方法将代表物种的高质量注释传播到其他物种。
- 可能借鉴现有的 lift-over 方法(跨基因组映射)。
- 随着数据积累,人工智能方法有望实现自动化、高精度注释传播。
标准化与社区参与
- 标准化注释对于全球生命树项目至关重要。
- Ensembl、NCBI 等中心化平台是核心,但:
- 自动化流程难以处理非典型基因(如硒蛋白、U12 内含子基因)。
- 专家人工校对仍然不可或缺,尤其在:
- 短链、无内含子、反义、嵌合转录本;
- 缺乏保守性的转录本;
- 假基因等情况。
- 需要鼓励 社区参与(如学生驱动的基因组注释项目)。
- 借助容器化与 DSL 工具,可实现可移植、高复现性流程,并结合本地专业知识,提升注释质量。
可持续性与未来展望
- 注释流程需不断更新,不仅因为新数据出现,还因为其他物种的基因组与注释会影响现有物种的注释。
- 随着全球测序计划的推进,将产生前所未有的数据量。
- 必须优化注释流程的计算效率,以减少生物信息学的碳足迹。
地球上蛋白质编码基因的全目录
- 在可预见的未来,只有极少数真核生物能够基于高质量转录组数据完成全面、多转录本的蛋白编码基因和非编码基因注释,这些物种有望在真核生物的系统发育树上被战略性地选择。对于大多数基因组而言,其注释仍将主要依赖计算方法,这些方法通常能够产生较为可接受的结果,但主要局限于蛋白编码基因层面。
- 因此,如果能为所有真核物种生成类似的“简化版蛋白编码转录本集”,在有限资源条件下将会获得最大效益。这就需要持续改进蛋白编码基因预测的方法,包括:
- 统计学方法,用于衡量编码序列的特征偏好(尤其是不依赖已知编码区训练的数据驱动方法);
- 蛋白质序列与基因组序列的比对方法,能够跨越越来越远的进化距离;
- 更能捕捉蛋白编码序列保守特征的系统发育学方法。
- 当所有基因组都被注释后,理论上可以通过跨物种的直系同源关系推导出一套普适的蛋白编码基因集。但这并非易事,因为旁系同源基因的存在常常掩盖直系同源关系,因而直系同源关系可能需要在基因簇(clusters)层面加以定义。
- 物种可以用该普适基因集的不同子集来表示。其中一部分基因(或基因簇)会在所有真核物种中普遍存在;另一部分则局限于特定类群,甚至是特定物种;还有一些基因的分布并不严格符合系统发育关系,因为它们可能在不同谱系中独立起源,或者在多个谱系中独立丢失。
- 在这种框架下,每个物种中某个基因的有无情况,可以通过与“典型参考序列”(archetypical sequence)的相似度来量化(例如:颜色深浅表示相似程度,空白表示该物种缺失该基因)。基于这一普适基因集(或其中的子集),可以在所有真核物种(或某些特定类群)间开展“基因组-表型”关联分析。物种表型的有无(或数量性状的变化)可以与相应基因的有无,甚至与其相似度水平相联系,某种程度上类似于在群体水平上开展的全基因组关联研究(GWAS)。
跨真核生物系统发育的基因组–表型关联
- 由于序列的保守性,蛋白编码基因的进化历史(不同于大多数 lncRNA 和其他基因组元素)能够在物种之间追溯,并建立直系同源关系。因此,构建一个普适的真核生物蛋白编码基因目录,将有助于建立以基因为中心的生物学视角,把基因视为选择的基本单位。
- 在这种框架下,物种可以被定义为这一普适基因集的子集。基于此,研究者能够在数十万物种中开展基因组-表型关联研究,探索基因的有无(或进化速率的差异)与表型起源的关系。这类研究将有助于揭示生命史上重大转变背后的基因组事件,以及趋同进化(如再生能力或社会性)或种间数量性状差异(如体型、寿命)的遗传基础。