Description

工作流程发布,不足交流探讨及改进

By masiyi, 11 May, 2024
Forums

本模块依然在91的师姐的rhoddb-test容器中进行测试

一、模块的下载和安装

在GitHub上面通过链接下载或者下载压缩包到本地(https://github.com/tripal/tripal_synview/blob/master/README.md)

二、所需数据收集和前期处理

1.数据收集

这里测试以RPGD上的马樱杜鹃V2版本的基因组fasta、注释gff3和蛋白序列fasta,圆叶杜鹃基因组fasta、注释gff和蛋白序列fasta为测试数据。均可在RPGD上下载。

2.数据处理

由于此模块是将最终计算的种内(种间)基因共线性区块结果给可视化了,所以还需要得到这个共线性结果。在这里我们使用MCScanX,也是从GitHub上可以下载。

2.1gff文件处理成所需格式

MCScanX需要gff文件和blast结果文件作为输入文件,由于它所需要的gff文件和标准gff文件不一样,所以我们需要先对gff文件进行处理(这里以马樱杜鹃的gff为例),提取它需要的列生成一个新的gff文件,在这里我们只要cds,首先先提取所有cds,命令如下:

By Tingting, 6 May, 2024
Forums

准备文件:关联出的相关位点、gff注释文件

1、确定区间:

查看文献以及参考bedtools使用的软件流程,确定显著位点上下游10kb的基因。

注:10kb可以根据自己的要求进行修改

# LeafS_new_GLM_GWAS7.bed文件是关联出的位点,合并位点信息,生成qujian文件
bedtools merge -i LeafS_new_GLM_GWAS7.bed >snp_qujian.bed

2、提取gff中染色体信息

#使用全部的gff文件会报错,位点信息都在4号染色体上,于是提取4号染色体的gff文件
grep '^chr04' t2.gff3 > chr04_records.gff3
#将提取出的染色体进行排序
bedtools sort -chrThenSizeA -i chr04_records.gff3 >chr04_size.gff3

3、筛选候选基因