By liyupeng, 31 May, 2026
Forums

VA版注释错误类型统计

  1. 正确的基因结构
    1. 颜色方块代表外显子,颜色方块之间的线条代表内含子
    2. 下方绿色和金色的是VA版本的注释的基因结构
    3. 示例基因,具有5个外显子,并且获得转录组数据的支持(该基因在测序时具有表达),且外显子和内含子边界分明。

  1. VA的简单介绍
    1. VA=(NCC+BA)*EVM
    2. VA就是把NCC的注释丢到BA的整合流程中,通过EVM的权重算法整合后的结果,再过了两轮PASA加了点可变剪切
  2. 第一类错误:基因重叠
    1. 因为VA是NCC和BA的整合版本,虽然不是粗糙的人工加减,但软件的算法整合也造成了部分基因的重叠
    2. 比如这个负链上的基因,是源自NC的,这里已经有一个可行的正链上的基因,而负链上的基因并没有任何证据支持,也没有被其他工具预测到,大概率可以排除
    3. VA中存在少数几个(个位数)重叠的基因,负链和正链上的,相对可行的几个,这些被保留了下来

  1. 第二类:错误的基因结构
    1. 因为BA和NC都存在一部分错误,这些错误也理所当然地跟着到了VA里面
    2. 有的错误被修正,有的留了下来;下面这个基因在NC里面得到了正确预测,之所以在EVM整合里面没有留下来,多半是因为在NCC里面就被筛选掉了,所以不存在,而在BA则是注释错误
    3. 西面这个基因最左侧的外显子应该被切一刀,分割成两个外显子才对。因为中间可以明显看到内含子的空白区和连线,还有上面的表示负链的线条

  1. 第三类:过度的权重分配问题
    1. VA是(BA+NCC)*EVM整合后的,在EVM里面有个权重比的问题,简单解释就是不同的注释结果被分配不同的权重比,并按照这个权重比进行加权计算整合
    2. NCC虽然是NC筛选过一遍后的结果,但里面也仍然存在大量错误。然后,在EVM权重比当中,吾辈当时给了NCC和PASA一样的最高权重比,这导致部分原本在BA中是正确的基因也因为NCC过高的权重值而被强行扭曲了,下面是一个例子
    3. 这个基因,虽然没有转录组数据支持,但BA和Helixer的预测结果都表明这是一个5个外显子基因,外显子和内含子边界也高度一致,但在NC当中是不同的,错误延续到了VA中
    4. 当然,这里的只是为了方便找的一个,其他的具有转录组数据支持的类似例子也存在

  1. 相反,有的基因在BA中是错误或者不完整注释,在VA注释仍然是问题基因。下面这个基因在BA里面少注释了一个外显子,留到VA(绿色)里面也是相同情况,金色基因结构是修改后的

 

  1. 第四类:错误注释导致基因融合
  2. 第五类:错误注释导致基因分割
  3. 第六类:未被注释的基因