VA版注释错误类型统计 | Zhang Lab Forum

By liyupeng, 31 May, 2026

Forums

VA版注释错误类型统计

正确的基因结构
1. 颜色方块代表外显子，颜色方块之间的线条代表内含子
2. 下方绿色和金色的是VA版本的注释的基因结构
3. 示例基因，具有5个外显子，并且获得转录组数据的支持（该基因在测序时具有表达），且外显子和内含子边界分明。

VA的简单介绍
1. VA=（NCC+BA）*EVM
2. VA就是把NCC的注释丢到BA的整合流程中，通过EVM的权重算法整合后的结果，再过了两轮PASA加了点可变剪切
第一类错误：基因重叠
1. 因为VA是NCC和BA的整合版本，虽然不是粗糙的人工加减，但软件的算法整合也造成了部分基因的重叠
2. 比如这个负链上的基因，是源自NC的，这里已经有一个可行的正链上的基因，而负链上的基因并没有任何证据支持，也没有被其他工具预测到，大概率可以排除
3. VA中存在少数几个（个位数）重叠的基因，负链和正链上的，相对可行的几个，这些被保留了下来

第二类：错误的基因结构
1. 因为BA和NC都存在一部分错误，这些错误也理所当然地跟着到了VA里面
2. 有的错误被修正，有的留了下来；下面这个基因在NC里面得到了正确预测，之所以在EVM整合里面没有留下来，多半是因为在NCC里面就被筛选掉了，所以不存在，而在BA则是注释错误
3. 西面这个基因最左侧的外显子应该被切一刀，分割成两个外显子才对。因为中间可以明显看到内含子的空白区和连线，还有上面的表示负链的线条

第三类：过度的权重分配问题
1. VA是（BA+NCC）*EVM整合后的，在EVM里面有个权重比的问题，简单解释就是不同的注释结果被分配不同的权重比，并按照这个权重比进行加权计算整合
2. NCC虽然是NC筛选过一遍后的结果，但里面也仍然存在大量错误。然后，在EVM权重比当中，吾辈当时给了NCC和PASA一样的最高权重比，这导致部分原本在BA中是正确的基因也因为NCC过高的权重值而被强行扭曲了，下面是一个例子
3. 这个基因，虽然没有转录组数据支持，但BA和Helixer的预测结果都表明这是一个5个外显子基因，外显子和内含子边界也高度一致，但在NC当中是不同的，错误延续到了VA中
4. 当然，这里的只是为了方便找的一个，其他的具有转录组数据支持的类似例子也存在

相反，有的基因在BA中是错误或者不完整注释，在VA注释仍然是问题基因。下面这个基因在BA里面少注释了一个外显子，留到VA（绿色）里面也是相同情况，金色基因结构是修改后的

第四类：错误注释导致基因融合
第五类：错误注释导致基因分割
第六类：未被注释的基因

Log in or register to post comments