By liyupeng, 29 December, 2025
Forums

miniprot比对

介绍

MiniProt 是一个专门为蛋白质序列比对和分析设计的工具,它使用了高效的算法和数据结构来加速蛋白质比对的过程。MiniProt的主要特点是通过优化的序列比对方法,能够在更短的时间内完成大规模蛋白质数据的比对和注释。该工具采用了一些基于最先进算法的技术,如隐马尔可夫模型(HMM)和蛋白质序列的特征提取,能够提供高精度的比对结果。

安装

  1. conda安装
conda install miniprot -y

使用

  1. miniprot对基因组进行建立索引,生成.mpi文件
    1. miniprot比对存在两种模式,这里是索引和比对分开来的,另一种是直接一起完成的
    2. 由于 miniprot 索引过程较慢且占用内存,建议预先构建索引(如果同时构建索引和比对的话,可能会比较花费时间)
miniprot -t30 -d maxim.mpi ../maxim.fna.soft.masked
  1. miniprot比对,生成gff文件
    1. 没有输出参数o,通过>导向
    2. gff,输出格式为gff;其他都还有gtf格式之类的
    3. 如果要将蛋白质比对到整个基因组,建议添加 -I 选项,让 miniprot 自动设置最大内含子大小。也可以使用 -G 显式指定最大内含子大小。(存在需求的话可以设置)
miniprot -t30 --gff maxim.mpi ../otherspecies_dudp_all_Rho_pep.fa > maxim_miniprot.gff
  1. miniprot 还可以选用通过 minisplice 计算的剪接得分。对于已训练好的脊椎动物和昆虫模型,可以使用 minisplice 计算剪接得分并将其提供给 miniprot(脊椎动物和昆虫限定,植物用不上
wget -O https://zenodo.org/records/15670304/files/vi2-7k.tgz | tar zxf -
minisplice predict -t16 -c vi2-7k.kan.cali vi2-7k.kan genome.fa.gz > score.tsv
miniprot -Iut16 --gff -j2 --spsc=score.tsv genome.fa.gz proteins.faa > align.gff

参考

  1. Miniprot-0.18 安装与使用--bioinformatistic tools 70-CSDN博客