By Tingting, 30 November, 2025
Forums

一、容器创建

docker run -itd -v /data2/hangtingting/genome_data:/home/genome_data -v /data2/hangtingting/lifespan_orthfinder_result:/home/lifespan_orthfinder_result  --name htt_orthofinder ubuntu_conda:latest /bin/bash
conda create -n orthofinder_env python=3.8
conda activate orthofinder_env
conda install -c bioconda orthofinder
#把蛋白质文件放在同一个文件夹里,文件夹里不放其他文件,可以跑通
#新的问题,pep结尾的文件不行,改为fa的后缀,去除蛋白质序列中的*就可以运行了
#运行
nohup orthofinder -f protein -M msa -a 40 &
#参数理解
#-a 分析所用到的线程
#-f 指定文件夹(存放我们所有物种的序列) 
#-M 推断基因树的方法 可选:msa 和 dendroblast (默认 dendroblast)dendroblast不依赖多序列比对,基于Blast评分方法聚类的方法,更节约时间。但相对多序列比对(msa)还是准确性差一点。
#-S 序列比对的方法 可选:Diamond 和 blast (默认Diamond)diamond相对于blast比对速度更快,准确性也有保证
#-T 建树的方法 可选:fasttree, raxml, raxml-ng, iqtree (默认fasttree)建树的精准度/耗时 raxml > iqtree > fastree; 如果追求更高的精准度可以使用 iqtree。运行程序

二、结果分析

Statistics_Overall.tsv:总体统计情况。

Statistics_PerSpecies.tsv:统计了每个物种的情况。

Orthogroups.GeneCount.tsv:每个物种在每个直系同源组中所含的基因数目。在进行基因家族扩张与收缩分析过程中会用到这个文件。

Orthogroups.tsv:每个物种在每个直系同源组中所含的基因ID。这个文件可以用于基因家族分析,找到自己感兴趣的基因家族。

Orthogroups.txt:类似于Orthogroups.tsv,只不过是OrhtoMCL的输出格式。

Orthogroups_UnassignedGenes.tsv:记录了MCL中未成功聚类(直系同源组中基因数 >= 1)的离散基因。

Orthogroups_SingleCopyOrthologues.txt:单拷贝的直系同源组。

groups_SpeciesOverlaps.tsv:物种间共享的直系同源组。

SpeciesTree_rooted.txt:物种树,以单拷贝基因推断的树。

参考:使用OrthoFinder进行基因家族分析