orthofinder运行以及结果解读

By Tingting, 30 November, 2025

Forums

一、容器创建

docker run -itd -v /data2/hangtingting/genome_data:/home/genome_data -v /data2/hangtingting/lifespan_orthfinder_result:/home/lifespan_orthfinder_result  --name htt_orthofinder ubuntu_conda:latest /bin/bash
conda create -n orthofinder_env python=3.8
conda activate orthofinder_env
conda install -c bioconda orthofinder
#把蛋白质文件放在同一个文件夹里，文件夹里不放其他文件，可以跑通
#新的问题，pep结尾的文件不行，改为fa的后缀,去除蛋白质序列中的*就可以运行了
#运行
nohup orthofinder -f protein -M msa -a 40 &
#参数理解
#-a 分析所用到的线程
#-f 指定文件夹（存放我们所有物种的序列） 
#-M 推断基因树的方法 可选：msa 和 dendroblast （默认 dendroblast）dendroblast不依赖多序列比对，基于Blast评分方法聚类的方法，更节约时间。但相对多序列比对（msa）还是准确性差一点。
#-S 序列比对的方法 可选：Diamond 和 blast (默认Diamond)diamond相对于blast比对速度更快，准确性也有保证
#-T 建树的方法 可选：fasttree, raxml, raxml-ng, iqtree (默认fasttree)建树的精准度/耗时 raxml > iqtree > fastree; 如果追求更高的精准度可以使用 iqtree。运行程序

二、结果分析

Statistics_Overall.tsv:总体统计情况。

Statistics_PerSpecies.tsv：统计了每个物种的情况。

Orthogroups.GeneCount.tsv：每个物种在每个直系同源组中所含的基因数目。在进行基因家族扩张与收缩分析过程中会用到这个文件。

Orthogroups.tsv：每个物种在每个直系同源组中所含的基因ID。这个文件可以用于基因家族分析，找到自己感兴趣的基因家族。

Orthogroups.txt：类似于Orthogroups.tsv，只不过是OrhtoMCL的输出格式。

Orthogroups_UnassignedGenes.tsv：记录了MCL中未成功聚类（直系同源组中基因数 >= 1）的离散基因。

Orthogroups_SingleCopyOrthologues.txt:单拷贝的直系同源组。

groups_SpeciesOverlaps.tsv：物种间共享的直系同源组。

SpeciesTree_rooted.txt:物种树，以单拷贝基因推断的树。

参考：使用OrthoFinder进行基因家族分析