Hlixer注释错误类型统计
- 这个实际上应该叫做Helixer对香榧基因组注释结果的准确性评估或者分析更加恰当一些
- helixer这个工具的便捷性、高效性已经在这一篇文档(https://www.kdocs.cn/l/cpw9PEy0WOY4)里面讲述过了
- 这里直接说结论了,helixer对长内含子基因的预测效果较差,预测的准确性范围<100kb
- 在0-100kb的范围内,变化幅度也特别大,能够说基本准确的只有十几kb范围,剩余的基本上只是预测到基因的片段
- 较为准确的预测
- 下图这个基因长度为4.7kb,helixer和NC一样较为准确地预测出来,互殴这说更准确,预测到了第9个外显子的存在
- 在不超过10kb的长度范围内,helixer的准确性和综合性注释方案(从头+同源+转录组)得到的结果相差无几
- 但是,香榧里面的长内含子基因很多,动一两百kb的基因经常出现,三四百甚至超过500kb以上的基因也存在,helixer在这块区域发挥的作用实在有限

- 第一类:长内含子基因的片段注释
- 下图这个基因是长度为150kb左右的基因,helixer值预测除了其中的三个外显子,也就是这个基因的一部分
- 对于香榧里面的长内含子基因,helixer的预测效果不是很好;我使用helixer进行预测的时候,使用的是植物类群的模型。

- 第二类:错误的外显子插入
- helixer预测的部分基因中,会存在较小片段的外显子插入,比如这个基因,中间的内含子区域内,插入了一个较长的外显子和三个较短的外显子
- 这类错误类型很常见,在人工编辑中可以选择性忽略掉,但在计算注释的流程中会产生什么样的影响还不清楚
