在91上的容器Lauraceae进行测试
1、首先对应示例data文件中的example.gff和example.blast对我的数据进行更改(这里用的是浙江樟cj和牛油果pa的数据),因为diamond相比较于blast+比对速度很快,这里就使用diamond去得到了blastp的比对结果作为blast文件,并命名为cj_pa.blast。示例文件部分结果如下:
Os12t0101901 Os11t0102301 99.19 123 1 0 1 123 1 123 4e-54 205
Os12t0101901 Os12t0101901 100.00 123 0 0 1 123 1 123 5e-54 205
Os12t0102000 Os11t0102400 100.00 66 0 0 45 110 45 110 2e-32 133
Os02t0558500 Os02t0558500 100.00 353 0 0 1 353 1 353 2e-172 600
Os12t0102350 Sb07g006230 67.43 218 63 2 7 217 8 224 2e-61 232
Os12t0102350 Sb08g021135 46.79 109 56 2 83 191 364 470 9e-18 87.0
Os12t0102350 Sb08g021135 34.81 135 83 3 83 217 153 282 6e-12 67.4
我的cj_pa.blast部分如下:
Cj01G0000100.1 Cj01G0000100.1 100.0 465 0 0 1 465 1 465 1.6e-265 914.1
Cj01G0000100.1 Cj01G0000200.1 95.0 476 13 2 1 465 1 476 7.9e-252 868.6
Cj01G0000100.1 Cj01G0000200.2 95.0 476 13 2 1 465 1 476 7.9e-252 868.6
Cj01G0000100.1 Pa02g0009.2 92.2 476 26 2 1 465 1 476 4.2e-245 846.3
Cj01G0000100.1 Pa02g0004.1 91.4 478 28 2 1 465 1 478 2.3e-243 840.5
2、接着对他们的gff进行处理并且合并,示例文件部分结果如下:
os5 Os05t0507200 25150045 25150392
os2 Os02t0774100 33540257 33541838
os5 Os05t0480600 23720056 23723583
sb1 Sb01g043420 66594964 66597064
sb2 Sb02g005690 6747416 6751797
sb8 Sb08g005355 7003051 7003278
我的文件部分结果如下:
cj1 Cj01G0000100.1 65612 66103
cj1 Cj01G0000200.1 114547 115071
cj1 Cj01G0000200.2 114547 115071
pa1 Pa01g0001.1 49782 50495
pa1 Pa01g0002.1 53622 54250
pa1 Pa01g0003.1 117850 118086
3、使用命令 MCScanX cj_pa 后按理来说会输出两个文件.collinearity和.html,前者是共线性的结果,类似于:
############### Parameters ###############
# MATCH_SCORE: 50
# MATCH_SIZE: 5
# GAP_PENALTY: -1
# OVERLAP_WINDOW: 5
# E_VALUE: 1e-05
# MAX GAPS: 25
############### Statistics ###############
# Number of collinear genes: 33937, Percentage: 50.45
# Number of all genes: 67274
##########################################
## Alignment 0: score=559.0 e_value=1.8e-34 N=13 os1&os1 plus
0- 0: Os01t0584200 Os01t0713850 7e-15
0- 1: Os01t0584900 Os01t0714800 2e-30
0- 2: Os01t0588200 Os01t0715500 9e-12
0- 3: Os01t0589200 Os01t0716500 7e-62
同样运行命令后我的就是会输出这两个文件,但是是空结果:
############### Parameters ###############
# MATCH_SCORE: 50
# MATCH_SIZE: 5
# GAP_PENALTY: -1
# OVERLAP_WINDOW: 5
# E_VALUE: 1e-05
# MAX GAPS: 25
############### Statistics ###############
# Number of collinear genes: 0, Percentage: 0.00
# Number of all genes: 1
##########################################
这几天我也排除了比对结果的问题(包括阈值、物种数量、cds和基因起止点等)、gff注释的问题(包括二者基因编号的差距、染色体编号的规范、基因命名的规范等),但就是无法跑出结果,非常费解
跑不出结果基本就是gff整理后的文件格式以及blast…