【金山文档 | WPS云文档】 从零开始的基因组注释人工校正,本地IGV-GSAman操作篇
https://www.kdocs.cn/l/clojyKDpifTe
从上一步得到的文件拷贝到本地。本地需要用到的软件有IGV-GSAman,TBtools,clustalx。
先把目标序列放进一个文件跑个clustalx比对看看缺位情况:
可见有几个基因开头和结尾的缺位情况比较严重,这种情况首先怀疑是否起始密码子或终止密码子有缺,或者开头和结尾处有注释错误,将一些小片段从这个基因中误分离出去了,具体还是要看后面GSAman里的情况。
打开IGV-GSAman,导入genome文件、gff文件和sort.bam文件,选择GSAman模式,第一次可能需要几分钟。导入完成后直接左上角输入对应的ID,会跳转到相应位点。
下面对软件界面进行一些介绍
右上角红框放大缩小,鼠标双击也可放大;中间红框代表reads深度,简而言之有峰就代表有表达,一般就是有外显子的地方;最下面红框代表一个基因,矩形代表外显子,蓝色线条代表内含子,一般我们校正的时候通过增加或减少外显子和调整外显子左右边界来进行校正。外显子的颜色代表这个基因在正链还是副链上,比如图内蓝色外显子代表是负链,如果是橙色代表是在正链上。
将视角放大到一定程度,底部会出现对应DNA序列的详细编码,在调整外显子的时候,除了要保证序列能被3整除意外,在负链上,外显子左端应为AC开始,右端CT结束(不包含);正链上左端AG开始,右端GT结束(不包含)
以本张图上的TG4g02001为例,上方是校正过的序列,可以看出原本TG4g02002应该是属于TG4g02001起始端的,但是注释时出错将其单独列出了,导致了TG4g02001蛋白序列开头的缺位。进行外显子修改时。按住ctrl可以拖动边界,右键鼠标-exon中可以删除、添加和分离外显子。
当你按照规则,自认为调整正确之后,可以在序列上右键-common functions-copy mrna sequence,把序列拷贝下来,打开TBtools-sequence toolkit-ORF prediction
看看frame是不是完整连续了,双击黑色区域,可以查看翻译出的蛋白质,跟之前的对比一下,是否成功修补了缺位?
如果没成功就继续根据转录组情况来回调整外显子边界吧,注意要符合起始终止密码子、3整除和外显子左右端等各个基本规则。