introduction
- 以近缘物种基因功能信息注释基因是较为常见的基因功能注释方式(蛋白序列比对,用于研究不多,比如刚完成基因组测序和组装的物种。进化上接近的物种,其基因结构和功能往往具有高度保守性。这种方法基于两个系统发育关系较近的物种,通过序列相似性比对,寻找结构相似的基因,将已有研究物种的基因功能注释“迁移”过去。对于那些非模式物种,同时又缺少试验数据的,是个较好的这种方案。常见的KEGG和GO功能注释也是这么个原理。)。目前已有约788种植物经过了基因组测序,然而目前主流功能注释工具包含的植物参考种类却极为有限。以著名的注释网站eggnog-mapper为例,在其收集的373类参考物种中,仅有9种与植物相关。换言之,难以找到合适物种模型进行注释是目前植物基因功能注释方面需要解决重要问题。
- GFAP综合了多种类型的数据库。首先,近缘物种注释库包含从藻类、苔藓、蕨类、裸子直至单子叶与双子叶植物在内的208种植物注释模型。其次,隐马尔可夫模型库包含目前最完整的蛋白结构域与功能映射,该库原则上可以注释任何具有已知蛋白结构域的基因。上述两库主要用于GO、KEGG以及Pfam注释。另外,目前主流的nr,swissprot,COG以及UniProt数据库也加入到了GFAP数据库中,使用户可以根据自身需要灵活选择(相较于一个个数据库下载,学习工具使用,这里集成了的会比较快和简单,大幅度提升了效率)。除注释外,GFAP的辅助功能可以帮助用户更加便捷地操作数据,目前所设置的辅助功能包括数据可视化、基因家族成员鉴定、从转录本中提取编码序列、批量翻译、批量提取等。效率方面,GFAP可以在4.5s内以GO、KEGG、Pfam信息注释超过2000个基因,显著高于当前主流功能注释工具;经CAFA等广泛认可的测试数据集验证,GFAP的注释准确性显著高于当前主流功能注释工具或与主流工具持平。所有功能都可以通过点击的方式实现,降低了对用户计算和生物信息方面能力的要求。配备有相应版本可以适应目前所有主流操作系统(包括Windows、Linux和MacOS)且开发了相关网站,便于用户使用。
使用教程
网页端
- 网址:GFAP
- 和eggNOG-mapper差不多的页面设置,不过功能上丰富了很多,提供一些基础参数设置、功能注释类型和参考数据库选择。拖拽或者选择提交文件,文件大小有限制(<1mb),对于一次性提交几万条蛋白序列的我来说有点糟心。不过,一般选择几个基因研究的话,也够不上什么障碍。
- 提交作业
- 提交蛋白序列文件
- 选择所有的能够注释的类型,GO、KEGG、结构域
- 数据库是选择植物特异的
- 相关物种的话选择银杏(Ginkgo biloba),香榧和红豆杉没有,按照PubPlant - cladogram of published non-flowering plant genomes找了一会也没有找到,选择了这个较远的
- 由于数据库/物种模型,这两个注释是分开的,没有相近物种模型的话直接选择植物特异的数据库就可以了。
- 结果
- 提供了GO、KEGG和pfam3三个单独的txt文件和一个整合文件,把整合文件复制粘贴到excel表后,看起来挺“简洁”的,除了提供最基础的三种注释类型的编号外就没了
- 这里再放一张eggNOG-mapper的注释结果图
- 比较之后,觉得可以放弃了这个工具了
本地端(linux)
- github上拖拉下载,这里没有万能的conda的戏份了
wget https://github.com/simon19891216/GFAP.git
- 创建虚拟环境和配置环境依赖
conda create -n gfap -y
conda activate gfap
conda install python -y
conda install scipy -y
conda install -c conda-forge svglib -y #两个运行python脚本需要用到的模块
conda install -c bioconda diamond #比对用工具
- 添加diamond的设置
- GAFP工具对diamond的默认路径是./bin/diamond,没有聪明到自行检测diamond的安装位置,也没有参数能够进行位置指定,这样一来,要么下载diamond到指定为止,要么设置软链接,或者修改GAFP脚本中的diamond的路径参数
- 这里试一下软链接的方法,
mkdir -p ./bin
ln -s /root/miniconda3/envs/gfap/bin/diamond ./bin/diamond
- 测试
- -o参数指定输出文件夹,需要提前创建好
- 这里缺少数据库,去翻了一遍文献,看完Supplementary data和data后也没有提供他们已经构建好的数据库的下载链接,linux端基本废了
python ../source/GFAP-linux.py \
-qp Arabidopsis_thaliana.TAIR10.pep.all.fa \
-aws arabidopsis \
-go -kegg -pfam \
-am fast \
-e 1e-5 \
-ap 50 \
-o ./result_output/
本地端(windows)
和linux端差不多,这里虽然提供下载途径(内嵌),但是网络拒绝链接,开不开代理结果一样,又废了一个
总结
- 一句话就是不太好用,设计倒是挺不错的,整合了好几个主要的蛋白数据库,理论上应该能够提供极大便利的使用体验。但是——
- linux版本没法下载databases,没法使用
- windows版本网络连接不上,没法下载databases,也没法使用;而且页面设计的有些差,窗口放大后字体不放大的,使用体验较差
- 网页端,做的挺好看的,但是一次只能够提交小于1mb的文件,这个感觉不是什么特别大的问题
- 注释得到的结果太少了,只是基础的编号,想要进一步分析害的去查找
- 网上转了一圈,也没有找到参考用的文章;github上有的只是基础的几个命令行
- 其余的还有一些绘图功能,看起来挺不错的,不过没有现成数据能够使用,而且也不晓得这些功能能不能正常使用,暂且搁置
- 总的来说,很一般,当做避雷帖好了