介绍
MiniProt 是一个专门为蛋白质序列比对和分析设计的工具,它使用了高效的算法和数据结构来加速蛋白质比对的过程。MiniProt的主要特点是通过优化的序列比对方法,能够在更短的时间内完成大规模蛋白质数据的比对和注释。该工具采用了一些基于最先进算法的技术,如隐马尔可夫模型(HMM)和蛋白质序列的特征提取,能够提供高精度的比对结果。
安装
- conda安装
conda install miniprot -y使用
- miniprot对基因组进行建立索引,生成.mpi文件
- miniprot比对存在两种模式,这里是索引和比对分开来的,另一种是直接一起完成的
- 由于 miniprot 索引过程较慢且占用内存,建议预先构建索引(如果同时构建索引和比对的话,可能会比较花费时间)
miniprot -t30 -d maxim.mpi ../maxim.fna.soft.masked- miniprot比对,生成gff文件
- 没有输出参数o,通过>导向
- gff,输出格式为gff;其他都还有gtf格式之类的
- 如果要将蛋白质比对到整个基因组,建议添加
-I选项,让 miniprot 自动设置最大内含子大小。也可以使用-G显式指定最大内含子大小。(存在需求的话可以设置)
miniprot -t30 --gff maxim.mpi ../otherspecies_dudp_all_Rho_pep.fa > maxim_miniprot.gff- miniprot 还可以选用通过 minisplice 计算的剪接得分。对于已训练好的脊椎动物和昆虫模型,可以使用 minisplice 计算剪接得分并将其提供给 miniprot(脊椎动物和昆虫限定,植物用不上)
wget -O https://zenodo.org/records/15670304/files/vi2-7k.tgz | tar zxf -
minisplice predict -t16 -c vi2-7k.kan.cali vi2-7k.kan genome.fa.gz > score.tsv
miniprot -Iut16 --gff -j2 --spsc=score.tsv genome.fa.gz proteins.faa > align.gff