NC版注释错误类型统计
- 正确的基因结构
- 颜色方块代表外显子,颜色方块之间的线条代表内含子
- 下方深蓝色的是NC版本的注释的基因结构
- 示例基因,具有5个外显子,并且获得转录组数据的支持(该基因在测序时具有表达),且外显子和内含子边界分明。

- 第一类型的错误,CDS序列缺少起始密码子(ATG)或者终止密码子(TGA, TAG, TAA),这样的基因具有15010个,是最主要的错误类型

- 第二种类型错误:注释不完整。
- 在对香榧中较长的基因(两三百kb及以上的注释中,往往只能注释完整基因的一部分片段
- NC能够准确注释的基因长度范围大概在200kb以内,精确一点的话是150kb

- 下图的实例基因,NC注释的片段之一,在NC基因的最右侧多出了一个外显子,而这个外显子在当前的序列比对中是不存在的,NC注释的部分基因与基因实际结构的贴合度相对较低

- 第三种错误类型:不存在证据支持的基因
- 这种基因实际上不能准确判断是否是错误的,和薛定谔的猫一样
- NC注释中,这类没有证据支持的基因具有很多,除开具有转录组数据支持和NC重叠的部分,至少也有几千个
- 我在IGV-GSAman中导入了4个源,即NC、BA、VA、ZA、Helixer等物种不同方法注释的结果,这里的NC基因不仅没有转录组数据支持,也没有被其他类型的工具注释到,大概率可以否定其真实性

- 第四类:被筛选掉的不完整的基因
- 下图金色的基因是我手动添加的,7个外显子,每个外显子上都有一段CDS序列,是个十分完美/完整的基因结构
- 该基因在NC中存在,当前金色基因结构所在的框是VA版注释(BA+NCC融合),因为一万五千多个缺少起始密码子和终止密码子的基因已经被筛选掉了,在整合中自然不会出现。但是,缺少起始密码子或终止密码子的基因,只是代表这个基因的开放阅读框的范围错误,不能直接否定这个基因的正确性,下面这个基因就是最好的案例
- 在NC版注释中,这个基因的长度要比实际要长一些,所以开放阅读框错误,缺少起始or终止,在Helilxer的注释中存在并且完美贴合NC的注释(外显子的数量、内含子-外显子边界方面),所以可以认为该基因可能存在。手动添加后,基因的长度相较NC要短一截。

- 第五类:外显子错误注释
- 下面这个基因中,NC的错误注释产生多余的外显子,并且没有准确注释到右侧存在的外显子
- 除了这种错误的外显子注释外,还有外显子冗余,大多在一些单外显子基因上,多了几个外显子出来

- 第六类:错误注释导致基因融合
- 两个不相干的基因被注释成一个
- 这类基因在NC中较少
