By liyupeng, 31 May, 2026
Forums

BA版注释错误类型统计

  1. 正确的基因结构
    1. 颜色方块代表外显子,颜色方块之间的线条代表内含子
    2. 下方红色的是BA版本的注释的基因结构
    3. 示例基因,具有5个外显子,并且获得转录组数据的支持(该基因在测序时具有表达),且外显子和内含子边界分明。

  1. 第一类:基因缺少起始和终止密码子
    1. 这类相对NC较少,只有153个
    2. 因为BA中存在可变剪切,实际存在这类问题的基因要更少
  2. 第二类:缺少证据支持的基因
    1. 没有转录组数据支持,也没有其他工具在相同位点预测到该基因,因此无法判断该基因的是否存在,结构是否正确

  1. 第三类:可能错误的可变剪切
    1. BA版本注释比NC要多了可变剪切,但有一部分基因的可变剪切的计算结果与实际基因结构有点插入
    2. 下面的这个基因,外显子本来是在最右边,但中间存在一部分的转录组数据覆盖,产生连线,然后外显子的位置就发生改变了,但这个外显子又是能够完整接上上一个外显子的CDS片段
    3. 在基因存在可变剪切的情况下,一般会使用最长转录本,所以这个问题相对不大

  1. 有点的可变剪切的外显子上的开放阅读框能够连上,有的不能,比如下面这张图

  1. 第四类:不完整的注释
    1. 和NC注释一样,BA注释里面也存在部分基因没有注释完整的情况,这个情况相对较少
    2. 不过,下面的实例基因实际上NC和BA都没有注释完整

  1. 第五类:错误注释导致基因的分割
    1. 线面的这个基因,在BA中被错误注释成了两个基因
    2. 可能这个基因实际上存在这样的两种可变剪切形式,但一般一个基因都用最长转录本,这里也没有其他可变剪切形式,所以当做错误的一种
    3. BA中因为注释导致一个完整的基因被分割成两个的情况并不多,十几二十个吧,不会超过这个量