helixer注释错误类型统计 | Zhang Lab Forum

By liyupeng, 31 May, 2026

Forums

Hlixer注释错误类型统计

这个实际上应该叫做Helixer对香榧基因组注释结果的准确性评估或者分析更加恰当一些
helixer这个工具的便捷性、高效性已经在这一篇文档（https://www.kdocs.cn/l/cpw9PEy0WOY4）里面讲述过了
这里直接说结论了，helixer对长内含子基因的预测效果较差，预测的准确性范围<100kb
在0-100kb的范围内，变化幅度也特别大，能够说基本准确的只有十几kb范围，剩余的基本上只是预测到基因的片段
较为准确的预测
1. 下图这个基因长度为4.7kb，helixer和NC一样较为准确地预测出来，互殴这说更准确，预测到了第9个外显子的存在
2. 在不超过10kb的长度范围内，helixer的准确性和综合性注释方案（从头+同源+转录组）得到的结果相差无几
3. 但是，香榧里面的长内含子基因很多，动一两百kb的基因经常出现，三四百甚至超过500kb以上的基因也存在，helixer在这块区域发挥的作用实在有限

第一类：长内含子基因的片段注释
1. 下图这个基因是长度为150kb左右的基因，helixer值预测除了其中的三个外显子，也就是这个基因的一部分
2. 对于香榧里面的长内含子基因，helixer的预测效果不是很好；我使用helixer进行预测的时候，使用的是植物类群的模型。

第二类：错误的外显子插入
1. helixer预测的部分基因中，会存在较小片段的外显子插入，比如这个基因，中间的内含子区域内，插入了一个较长的外显子和三个较短的外显子
2. 这类错误类型很常见，在人工编辑中可以选择性忽略掉，但在计算注释的流程中会产生什么样的影响还不清楚

Log in or register to post comments