By shenyijun, 30 May, 2026

【金山文档 | WPS云文档】 基因家族蛋白序列质量控制
https://www.kdocs.cn/l/cvluHvjVEYR6

使用hmmer进行基因家族鉴定,得到初步结果文件后,我们要对得到的文件进行质量控制处理,得到更高置信度的文件,方便后续进行建树等操作。

质量控制我们从序列长度筛选、冗余序列筛选和本地CDD结构域筛选三个部分入手。

序列长度筛选

seqkit stats -a xxx.fasta #查看下筛出蛋白的长度

查看长度主要关注min、max和ave三个值,更建议的方法是参考相关研究论文,以权威期刊中的序列长度筛选阈值作为参考。本次处理参考PNAS论文-Origin and early evolution of the plant terpene synthase family中的350aa。

seqkit seq -m 350 Tgrandis_tps.fasta -o Tgrandis_tps_qc1.fasta #-m后跟筛选长度 -o指定输出名

冗余序列筛选

seqkit rmdup -s -D duplicated.detail.txt xxx_tps_qc1.fasta -o all_tps_qc1_nr.fasta
# -s 按序列内容去重 -D 保留保留重复信息 -o 指定输出文件名
批量处理脚本qc3.py #目前已更新到第三版

初步建树

copy /b *_tps_qc2.fasta all_tps_qc2.fasta #本地合并tps文件
mafft all_tps_qc1.fasta > all_tps_qc1_ali.fasta
trimal -in all_tps_qc1_ali.fasta -out all_tps_qc1_ali_trim.fasta -automated1 -keepseqs
fasttree all_tps_qc1_ali_trim.fasta > tps_test.tree