文献:A long-read and short-read transcriptomics approach provides the first high-quality reference transcriptome and genome annotation for Pseudotsuga menziesii (Douglas-fir)
摘要
- 道格拉斯冷杉(Pseudotsuga menziesii)原产于北美西部,能在多种环境条件下生长,是一种重要的木材树种。
- 裸子植物,松科,基因组大小14.7G,和香榧很“近”
- 结果表明,使用LR de novo 组装相比于基于基因组的组装策略,识别出高质量转录本的数量提高了1.3倍,“完整”基因数量提高了1.85倍,功能注释的基因数量提高了2.7倍。我们预测了666条长链非编码RNA(lncRNA)和12,778条独特的蛋白质编码转录本,其中包括2,016个推定的转录因子。
- 转录本的组装分为有参和无参,也就是是否使用了参考基因组。一般来说,有一个参考基因组的话,转录本的组装推荐使用有参,但结果会受到参考基因组的质量影响。文章中使用无参的转录本组装质量提升明显也是这个原因。
- 我们整合了LR de novo 组装的转录组、成对末端SR数据以及已发表的单端SR转录组,用于生成改进的基因组注释。该注释通过BRAKER2进行预测,并根据功能注释、重复序列含量以及转录组比对结果进行了优化。
- 最终获得的高质量基因组注释包含51,419个独特的基因模型,这些是从初始预测的322,631个模型中筛选出来的。
引言
- 道格拉斯冷杉基因组数据
- 该基因组具有较长的 scaffold(N50 为 340.7 kbp)和 contig(N50 为 44 kbp),但高度重复,据估计其中 50% 或更少被独特的 kmer(k=32)覆盖。道格拉斯冷杉基因组的大部分编码空间为内含子区域,而不是外显子。现有的道格拉斯冷杉基因组注释共包含 54,830 个基因模型,其中 83% 实现了功能注释。根据 BUSCO 的 embryophyta 系列数据库评估,该注释的完整性为 29%。(从这些数据来看,组装质量不是特别好。正因为如此,这篇文献才从这里进行切入,寻找改良的注释方案。)
- 对于葡萄(Vitis vinifera,2019)和黍类草(2020),则结合了已有的高质量参考基因组来指导LR转录组组装。而对于研究较少的物种,如日本红豆杉(Taxus cuspidata;2019)和卡特兰兰属植物(Cattleya;2020),则采取完全 de novo 的LR(long read,长度长转录本数据)转录组组装方法。
方法
Iso-Seq 长读长数据的质量控制与转录组组装
- 质量控制后,使用 TransDecoder v5.3.0从高质量转录本中识别编码序列(CDS)。每个 Iso-Seq 文库中的所有 CDS 序列在 95% 序列相似性下使用 VSEARCH v2.4.3进行去冗余处理,得到“唯一转录本(unique transcripts)”。来自所有 4 个文库的唯一 CDS 转录本在 80% 序列相似性下再次聚类,从而构建出 LR(长读段)de novo 转录组。
- 此外,唯一转录本还使用 Gmap v. 2019-06-10比对到 Douglas-fir 基因组(Neale 等, 2017)。Gmap 使用的参数包括:
-K 1000000
,-L 10000000
,–cross-species
,–fulllength
,–min-trimmed-coverage=.95
,–min-identity=.92
,以及-n 1
。使用 gFACs从 Gmap 的 gff3 输出中提取不含内含子的 fasta 文件。将这 4 个 fasta 文库在 80% 序列相似性下使用 VSEARCH 聚类,生成参考基因组指导下的转录组组装。 - 转录组组装的质量通过 rnaQUAST进行评估。转录组的完整性使用 BUSCO v4结合 OrthoDB 第10版中植物界(Viridiplantae)和真核生物(Eukaryote)系统发育数据集进行评估。功能注释则借助 EnTAP及 Araport11 数据库完成。(长度长的数据,没有多少的实战经验。大概是能够看得出来,这里是把长度长的数据比对到基因组上然后经过层层筛选得到较为可靠的转录本,也引入了一些质量评价。)
- 方法这块还包括了转录因子和长非编码RNA的鉴定,不过这不恩内容不是特别需要就没有放进来。至于短读长的部分,只是从头组装,然后聚类筛选出唯一转录本这些描述而已。
基因组注释
- 使用数据
- 转录本
- 单端SR,230
- 双端SR,4
- LR,4
- 蛋白:来自NCBI RefSeq植物蛋白(版本87)和自定义针叶树蛋白数据库(版本2,来自Plant Genomics Lab Gitlab)的蛋白质(有的注释会挑选和目标物种系统发育较近的已有研究的物种蛋白,多数的注释流程都是这样的。但也有少部分是直接搬过来一整个数据库,比如这里。好处就是方便,反正只要能够比对上就可以了。不过,直接班一整个数据库这种事情还是看情况而定,吾辈之前也打算搬一个整理好的植物蛋白数据库用于蛋白序列比对,收集这一块的证据,文件大小差不多是5G,相比自己收集而来的300mb足足大了15倍。用genomethreader运行,放在6T上,结果就是使用了超过一半的内存,运行了一整天也没有任何结果,担心继续上升的内存可能会被挤爆所以就pass了。而且,即使使用exonerate或者其他的比对工具,这个量也有些过大了。反过来,如果基因组较小的话倒是还有些可能,比如200mb以内大小的基因组。)
- 转录本
- 注释流程
- RNA-seq比对,把长度长和短读长的de novo组装,聚类和过滤(相似性95%),接着是比对到参考基因组上,得到有参的转录本
- 比对结果和从其他两个数据库收集得到的蛋白用作BRAKER2的输入
- BRAKER2支持用蛋白作为外源hint来训练模型,提高精度。在之后的BRAKER3则是能够同时支持使用蛋白和RNA-seq两种数据。
- 使用gFACs v1.1.2进行过滤
- 使用BEDtools v2.27.1(Quinlan 和 Hall 2010)将BRAKER2中较短的基因模型替换为转录组比对结果中的较长模型。
- 根据重复序列内容进一步过滤:如果注释基因的序列中有超过80%被软屏蔽(softmasked),则该基因会被剔除。
- 根据功能注释对单外显子基因和多外显子基因进行筛选:使用EnTAP进行相似性比对,要求目标与查询序列的覆盖率均不低于80%(称为80/80)。也考虑了50%覆盖率(称为50/50)的比对结果。
基因组注释比较
每个注释模型的功能注释是通过 ENTAP v. 0.9.1对与基因模型对应的蛋白质序列进行的(蛋白质序列由 gFACs 生成),比对对象是 NCBI 的植物蛋白 RefSeq 数据库以及一个自定义的裸子植物数据库,该数据库包含 7 个物种(欧洲云杉 Picea abies、西黄松 Picea sitchensis、银杏 Ginkgo biloba、米氏苏铁 Cycas micholitzii、买麻藤 Gnetum montanum、欧洲红豆杉 Taxus baccata 和库页冷杉 Abies sachalinensis)的 186,061 条蛋白质序列。每个注释模型的比对均进行了两次,分别使用 50%/50% 和 80%/80% 的查询与覆盖度阈值。
结果
- 在聚类和校正后,每个文库中识别出了 3 万到 4 万条高质量转录本,长度范围为 59 bp 至 7.8 kb。约 90% 的高质量转录本被识别为含有开放阅读框(ORF)的 CDS,可能代表编码蛋白质的基因。
- 如预期那样,SR 测序组装获得的转录本数量明显多于 LR 组装获得的数量,且最长的转录本是由 SR 数据组装得到的,而不是 LR 数据。
- BUSCO 得分在不同转录组和基因组注释版本中也表现出差异。SR 和 LR 转录组比对的 BUSCO 完整度为 64.6%,而未比对的 SR 和 LR de novo 转录组的 BUSCO 完整度为 96.7%。转录组比对的完整度较低,伴随 BUSCO 片段数增加超过 7.5 倍,缺失数增加 11.4 倍。Annotation v2 的 BUSCO 完整度为 69.1%,相比于已发表模型 Annotation v1 的 29.4% 有显著提升(基于 1614 个 BUSCO 基因组评估;)。尽管在过滤过程中 Annotation v2 的 BUSCO 完整度略降(从 69.4% 降至 69.1%),但却有效剔除了超过 20 万个不太可能的基因模型。
- Annotation v2 中的内含子和基因长度也相较于已发表模型有明显提升。Annotation v2 的最大内含子长度达到 778 kbp,远大于 Annotation v1 的 269 kbp。超长内含子的检测表明注释质量提高,因为针叶树基因组的显著特点就是存在超长内含子。此外,Annotation v2 的平均基因长度为 17.97 kbp,也长于 Annotation v1 的 9.01 kbp,且接近转录组比对结果的 27 kbp 平均基因长度。
- 注释中的基因和内含子长度,结合物种基因组特性,也可以作为评估质量的一个指标之一。
- 增加对转录组的处理,筛选出较高质量的结果,对其进行统计,然后将注释当中的mRNA长度相关数据与其进行比较,应该可以得到一个不错的比对结果,纳入评估体系的一环。
总结
- 同为裸子植物,超大型基因组,道格拉斯冷杉的这个注释,虽然方法没法提供什么有用的信息。基因组质量不一样,能够使用的数据也不一样。不过,转录本组装和处理这一块以及最后眼神出来的对预测基因模型质量评估这一块能够提供一些有意义的参考