VA版注释错误类型统计
- 正确的基因结构
- 颜色方块代表外显子,颜色方块之间的线条代表内含子
- 下方绿色和金色的是VA版本的注释的基因结构
- 示例基因,具有5个外显子,并且获得转录组数据的支持(该基因在测序时具有表达),且外显子和内含子边界分明。

- VA的简单介绍
- VA=(NCC+BA)*EVM
- VA就是把NCC的注释丢到BA的整合流程中,通过EVM的权重算法整合后的结果,再过了两轮PASA加了点可变剪切
- 第一类错误:基因重叠
- 因为VA是NCC和BA的整合版本,虽然不是粗糙的人工加减,但软件的算法整合也造成了部分基因的重叠
- 比如这个负链上的基因,是源自NC的,这里已经有一个可行的正链上的基因,而负链上的基因并没有任何证据支持,也没有被其他工具预测到,大概率可以排除
- VA中存在少数几个(个位数)重叠的基因,负链和正链上的,相对可行的几个,这些被保留了下来

- 第二类:错误的基因结构
- 因为BA和NC都存在一部分错误,这些错误也理所当然地跟着到了VA里面
- 有的错误被修正,有的留了下来;下面这个基因在NC里面得到了正确预测,之所以在EVM整合里面没有留下来,多半是因为在NCC里面就被筛选掉了,所以不存在,而在BA则是注释错误
- 西面这个基因最左侧的外显子应该被切一刀,分割成两个外显子才对。因为中间可以明显看到内含子的空白区和连线,还有上面的表示负链的线条

- 第三类:过度的权重分配问题
- VA是(BA+NCC)*EVM整合后的,在EVM里面有个权重比的问题,简单解释就是不同的注释结果被分配不同的权重比,并按照这个权重比进行加权计算整合
- NCC虽然是NC筛选过一遍后的结果,但里面也仍然存在大量错误。然后,在EVM权重比当中,吾辈当时给了NCC和PASA一样的最高权重比,这导致部分原本在BA中是正确的基因也因为NCC过高的权重值而被强行扭曲了,下面是一个例子
- 这个基因,虽然没有转录组数据支持,但BA和Helixer的预测结果都表明这是一个5个外显子基因,外显子和内含子边界也高度一致,但在NC当中是不同的,错误延续到了VA中
- 当然,这里的只是为了方便找的一个,其他的具有转录组数据支持的类似例子也存在

- 相反,有的基因在BA中是错误或者不完整注释,在VA注释仍然是问题基因。下面这个基因在BA里面少注释了一个外显子,留到VA(绿色)里面也是相同情况,金色基因结构是修改后的

- 第四类:错误注释导致基因融合
- 第五类:错误注释导致基因分割
- 第六类:未被注释的基因