By shenyijun, 30 May, 2026

【金山文档 | WPS云文档】 在服务器进行基因家族鉴定 https://www.kdocs.cn/l/cntZTrzSs5OJ

本文以鉴定TPS基因家族为例,该家族domain在InterPro上有PF03936和PF01397两个,分别在C端和N端,在进行鉴定之前要先确定目标家族有哪些domain并准备好对应的hmm文件。

需要注意的是,流程中过程文件很多,要做好命名规则且规则要统一,以免结果文件混乱。

在TPS基因家族鉴定中,我们对两个结构域进行hmmer检索后,为了更高的置信度,选取二者交集作为初步的可信结果文件。

用到的镜像为syj_genefamilyidentification:v1,需要用到的工具在镜像中已配置完毕,启动工作环境的指令是conda activate tps_env,下面是具体指令:

两个TPS结构域分别检索

hmmsearch --domE 1e-5 --domtblout TgrandisPF03936.out PF03936.hmm Tgrandis.pep
hmmsearch --domE 1e-5 --domtblout TgrandisPF01397.out PF01397.hmm Tgrandis.pep

两个检索结果分别提ID

grep -v "^#" TgrandisPF03936.out | awk '{print $1}' | sort -u > TgrandisPF03936.id.txt
grep -v "^#" TgrandisPF01397.out | awk '{print $1}' | sort -u > TgrandisPF01397.id.txt

ID取交集

comm -12 TgrandisPF01397.id.txt TgrandisPF03936.id.txt > Tgrandis_tps.id.txt

根据ID提蛋白

seqkit grep -f Tgrandis_tps.id.txt Tgrandis.pep -o Tgrandis_tps.fasta
批量处理脚本GFI3.py