香榧雌树基因组注释
NC版本
- 第一版本,发表在NC上的注释文件,id名是以evm开头的注释内容。
- TheTorreya grandisgenome illuminates the origin and evolution of gymnosperm-specific sciadonic acid biosynthesis
- 注释流程
- 重复序列注释
- 重复序列的识别结合了de novo预测与同源比对两种方法。对于LTR逆转录转座子(LTR-RTs)和其他转座元件(TEs),使用了 LTR_Finder 和 RepeatModeler 进行预测。串联重复序列(Tandem repeats)则通过 TRF(Tandem Repeats Finder) 进行识别,同时还使用 RepeatProteinMask 以检测具有蛋白水平证据的重复序列。
- 通过de novo方法预测得到的重复序列与 Repbase 数据库中的重复序列进行了合并,构建了一个综合的重复序列库。随后使用 RepeatMasker 对全基因组进行重复序列的掩蔽和注释。
- 蛋白编码基因注释
- 在基于转录组的证据部分,原始的 RNA-seq 数据首先使用 Trimmomatic(v0.36)进行质量控制,去除低质量序列和接头序列。清洗后的高质量 reads 随后使用 TopHat2 比对到香榧(Torreya grandis)参考基因组上,并利用 Cufflinks(v2.2.1)构建初步的转录本模型。为了进一步提高注释精度,这些 RNA-seq 数据还通过 Trinity(v2.0.13)进行 de novo 组装,然后将 Trinity 组装结果与参考基因组比对。最终,这些转录本结构信息通过 PASA(v2.2.0)管道整合,生成更加完整和精确的转录本注释。
- 在基于同源性的注释方面,来自13个代表性物种的蛋白质序列被用于辅助香榧基因组的注释。这些蛋白质序列使用 TBLASTN 比对到香榧基因组,筛选条件为 e-value 小于 1e-5。对于来自同一蛋白的高得分比对片段(HSPs),使用 GenBlastA 进行聚类,然后通过 GeneWise 精确预测对应的基因结构。这13个物种包括:1种苔藓植物(Physcomitrella patens)、1种石松植物(Selaginella moellendorffii)、7种被子植物(Amborella trichopoda、Arabidopsis thaliana、Oryza sativa、Phalaenopsis equestris、Populus trichocarpa、Vitis vinifera 和 Zea mays),以及4种裸子植物(Ginkgo biloba、Gnetum montanum、Picea abies 和 Pinus taeda)。
- 在 ab initio 基因预测中,所有由 PASA 管道获得的完整基因结构被用于训练主流 ab initio 基因预测软件,包括 AUGUSTUS、GlimmerHMM 和 SNAP。其中,AUGUSTUS 在预测时设置了
-noInFrameStop=true
和-genemodel=complete
参数,而其余软件则使用默认参数。此外,还采用了 geneid 和 GENSCAN 进行额外的 ab initio 预测,以提升注释的全面性和覆盖度。 - 所有来自不同证据来源的预测结果最终通过 EVidenceModeler(EVM)进行综合整合。为了反映不同证据的可信度,在整合过程中为各类预测数据分配了不同的权重:PASA 为100,GeneWise 为20,Cufflinks 为20,AUGUSTUS 为5,而其他 ab initio 预测工具(包括 GlimmerHMM、SNAP、GeneID 和 GENSCAN)统一赋值为1。通过这种加权整合方式,最终获得了高质量、可靠性强的香榧蛋白质编码基因注释结果。
- 重复序列注释
- 吾辈的记录文本不见了,所以找不到服务器上香榧第一版注释的原始路径了,这里只有我的备份路径
/data2/liyupeng/alice/database/torreya_nc
NCC版本
- 根据NC版本的注释文件提取的cds,使用脚本去除cds不完整(缺少起始密码子或者终止密码子)的内容,保留具有完整cds结构的基因的注释内容,然后对这些基因进行重命名。
- 具体的筛选以及重命名的流程:https://www.kdocs.cn/l/cdJRauELhrfX
- 文件路径:
/data2/liyupeng/alice/output/gff_convert/gff.convert.1205
BA版本
- 重注释的第一版本
- 注释流程
- 重复序列注释
- 重复序列的注释结合了 de novo 预测与同源比对方法。对于长末端重复逆转录转座子(LTR-RTs),首先使用 LTRharvest 和 LTR_Finder_parallel 进行预测,随后通过 LTR_retriever 对结果进行筛选和整合。
- 其他类型的重复序列通过 RepeatModeler 进行预测,所得结果与 Repbase 和 Dfam 数据库中已知的重复序列合并,构建了一个综合的重复序列库。最终,使用 RepeatMasker 对整个基因组中的重复序列进行掩蔽和注释。
- 蛋白编码基因注释
- 在基于RNA-seq的证据部分,RNA-seq数据采集自七种组织:根、茎、叶、青果、青皮、叶、种壳、种仁。这些RNA-seq reads 使用 HISAT2 比对至香榧(Torreya grandis)基因组,并利用比对结果通过 Trinity 进行参考基因组指导的转录组组装。随后,组装得到的转录本提交至 PASA 管道,基于转录本证据预测基因结构。
- 在基于同源性的注释部分,使用 GenomeThreader 将多个参考物种的已知蛋白序列比对到香榧基因组,以生成同源性基因结构证据。所使用的蛋白序列来自15个物种,包括:Taxus chinensis(红豆杉)、Cryptomeria japonica(柳杉)、Ginkgo biloba(银杏)、Pinus tabuliformis(油松)、Welwitschia mirabilis(百岁兰)、Gnetum montanum(买麻藤)、Amborella trichopoda、Cycas panzhihuaensis(攀枝花苏铁)、Selaginella moellendorffii(卷柏)、Arabidopsis thaliana(拟南芥)、Oryza sativa(水稻)、Phalaenopsis equestris(蝴蝶兰)、Populus trichocarpa(黑杨)、Vitis vinifera(葡萄) 和 Zea mays(玉米)。
- 在 ab initio 基因预测中,使用了 BRAKER3 软件。该工具整合了 RNA-seq 的比对结果(BAM格式)和上述15个物种的蛋白序列作为外部证据,并以软屏蔽后的香榧基因组作为输入,输出为 GTF 格式的基因预测文件
braker.gtf
。 - 在证据整合部分,使用 EVidenceModeler(EVM) 将三类证据——转录组、同源蛋白比对和 ab initio 预测——进行综合。为不同来源的证据分配了如下权重:转录本组装(assembler, TRANSCRIPT)为 10,TransDecoder 预测(OTHER_PREDICTION)为 5,GenomeThreader 同源比对结果(PROTEIN)为 3,BRAKER3 的 ab initio 预测结果(ABINITIO_PREDICTION)为 1。
- 使用PASA管道,利用PASA管道生成的转录本和数据库文件,进一步更新EVM的整合结果,增加非翻译区域和可变剪切的注释内容
- 使用infernal完成非编码RNA注释
- 重复序列注释
/data2/liyupeng/alice/output/female_anno/rename_fa_gff3
VA版本
- EVM这个工具能够整合来自不同渠道的注释文件(半成品)生成最后一个可信度较高的结果;对于来自不同渠道的注释文件,按照可信度进行权重分配,权重越高的越可信,整合起来这部分的比重应该也越高,差不多就是这么一回事。
- 基于EVM的工作原理,将NCC作为其他来源渠道告知俩ing的注释,给予和RNA-seq比对相同的权重数值(10),即在所有证据来源中最可信的,合并后得到最终的结果就是VA版本的注释
- 之后就是PASA注释更新,增加utr和可变剪切部分;这部分的数据是使用BA流程中产生的转录本和中间数据库,能够正常比对的上。
香榧雄树基因组注释
- 现在有一个使用liftoff,将雌树的注释映射过去的版本。有胜于无,倒也不敢这么说,还是当做没有好了。
- 新版制作中......
- liftoff版本路径
/data2/liyupeng/alice/output/liftoff_anno
香榧雌树单倍型基因组注释(BA)
- 使用的转录组和蛋白数据和雌树基因组相同,流程也完全一样,所以这里还是统一命名为BA好了,至于那么多会不会弄混,那没办法了,毕竟基因组个数就摆在那里
- 已有的结果,完成了pasa注释更新并重命名后的结果
- 结果路径
/data2/liyupeng/alice/output/female_hap1_anno/rename_fa_gff3
/data3/liyupeng/key/output/female_hap2_anno/hap2/rename_fa_gff3
香榧雄树单倍型基因组注释(BA)
- 使用的转录组数据只有3个(小孢子、叶和茎),蛋白数据和BA一样,注释流程也和BA一样
- 已有的结果,完成了pasa注释更新并重命名后的结果
/data3/liyupeng/key/output/male_haplotype_anno/hap1/rename_fa_gff3
/data3/liyupeng/key/output/male_haplotype_anno/hap2/rename_fa_gff3