BA版注释错误类型统计
- 正确的基因结构
- 颜色方块代表外显子,颜色方块之间的线条代表内含子
- 下方红色的是BA版本的注释的基因结构
- 示例基因,具有5个外显子,并且获得转录组数据的支持(该基因在测序时具有表达),且外显子和内含子边界分明。

- 第一类:基因缺少起始和终止密码子
- 这类相对NC较少,只有153个
- 因为BA中存在可变剪切,实际存在这类问题的基因要更少
- 第二类:缺少证据支持的基因
- 没有转录组数据支持,也没有其他工具在相同位点预测到该基因,因此无法判断该基因的是否存在,结构是否正确

- 第三类:可能错误的可变剪切
- BA版本注释比NC要多了可变剪切,但有一部分基因的可变剪切的计算结果与实际基因结构有点插入
- 下面的这个基因,外显子本来是在最右边,但中间存在一部分的转录组数据覆盖,产生连线,然后外显子的位置就发生改变了,但这个外显子又是能够完整接上上一个外显子的CDS片段
- 在基因存在可变剪切的情况下,一般会使用最长转录本,所以这个问题相对不大

- 有点的可变剪切的外显子上的开放阅读框能够连上,有的不能,比如下面这张图

- 第四类:不完整的注释
- 和NC注释一样,BA注释里面也存在部分基因没有注释完整的情况,这个情况相对较少
- 不过,下面的实例基因实际上NC和BA都没有注释完整

- 第五类:错误注释导致基因的分割
- 线面的这个基因,在BA中被错误注释成了两个基因
- 可能这个基因实际上存在这样的两种可变剪切形式,但一般一个基因都用最长转录本,这里也没有其他可变剪切形式,所以当做错误的一种
- BA中因为注释导致一个完整的基因被分割成两个的情况并不多,十几二十个吧,不会超过这个量
