By masiyi, 17 June, 2024

在91上的容器Lauraceae进行测试

1、首先对应示例data文件中的example.gff和example.blast对我的数据进行更改(这里用的是浙江樟cj和牛油果pa的数据),因为diamond相比较于blast+比对速度很快,这里就使用diamond去得到了blastp的比对结果作为blast文件,并命名为cj_pa.blast。示例文件部分结果如下:

Os12t0101901    Os11t0102301    99.19   123     1       0       1       123     1       123     4e-54    205
Os12t0101901    Os12t0101901    100.00  123     0       0       1       123     1       123     5e-54    205
Os12t0102000    Os11t0102400    100.00  66      0       0       45      110     45      110     2e-32    133
Os02t0558500    Os02t0558500    100.00  353     0       0       1       353     1       353     2e-172   600
Os12t0102350    Sb07g006230     67.43   218     63      2       7       217     8       224     2e-61    232
Os12t0102350    Sb08g021135     46.79   109     56      2       83      191     364     470     9e-18   87.0
Os12t0102350    Sb08g021135     34.81   135     83      3       83      217     153     282     6e-12   67.4

我的cj_pa.blast部分如下:

Cj01G0000100.1  Cj01G0000100.1  100.0   465     0       0       1       465     1       465     1.6e-265        914.1
Cj01G0000100.1  Cj01G0000200.1  95.0    476     13      2       1       465     1       476     7.9e-252        868.6
Cj01G0000100.1  Cj01G0000200.2  95.0    476     13      2       1       465     1       476     7.9e-252        868.6
Cj01G0000100.1  Pa02g0009.2     92.2    476     26      2       1       465     1       476     4.2e-245        846.3
Cj01G0000100.1  Pa02g0004.1     91.4    478     28      2       1       465     1       478     2.3e-243        840.5

 

2、接着对他们的gff进行处理并且合并,示例文件部分结果如下:

os5     Os05t0507200    25150045        25150392
os2     Os02t0774100    33540257        33541838
os5     Os05t0480600    23720056        23723583
sb1     Sb01g043420     66594964        66597064
sb2     Sb02g005690     6747416 6751797
sb8     Sb08g005355     7003051 7003278

我的文件部分结果如下:

cj1 Cj01G0000100.1 65612 66103
cj1 Cj01G0000200.1 114547 115071
cj1 Cj01G0000200.2 114547 115071
pa1 Pa01g0001.1 49782 50495
pa1 Pa01g0002.1 53622 54250
pa1 Pa01g0003.1 117850 118086

 

3、使用命令 MCScanX cj_pa 后按理来说会输出两个文件.collinearity和.html,前者是共线性的结果,类似于:

############### Parameters ###############
# MATCH_SCORE: 50
# MATCH_SIZE: 5
# GAP_PENALTY: -1
# OVERLAP_WINDOW: 5
# E_VALUE: 1e-05
# MAX GAPS: 25
############### Statistics ###############
# Number of collinear genes: 33937, Percentage: 50.45
# Number of all genes: 67274
##########################################
## Alignment 0: score=559.0 e_value=1.8e-34 N=13 os1&os1 plus
  0-  0:        Os01t0584200    Os01t0713850      7e-15
  0-  1:        Os01t0584900    Os01t0714800      2e-30
  0-  2:        Os01t0588200    Os01t0715500      9e-12
  0-  3:        Os01t0589200    Os01t0716500      7e-62

 

同样运行命令后我的就是会输出这两个文件,但是是空结果:

############### Parameters ###############
# MATCH_SCORE: 50
# MATCH_SIZE: 5
# GAP_PENALTY: -1
# OVERLAP_WINDOW: 5
# E_VALUE: 1e-05
# MAX GAPS: 25
############### Statistics ###############
# Number of collinear genes: 0, Percentage: 0.00
# Number of all genes: 1
##########################################

 

这几天我也排除了比对结果的问题(包括阈值、物种数量、cds和基因起止点等)、gff注释的问题(包括二者基因编号的差距、染色体编号的规范、基因命名的规范等),但就是无法跑出结果,非常费解