By caikuntong, 31 October, 2025
Forums

【金山文档 | WPS云文档】 构建发育树 https://www.kdocs.cn/l/cjY4WQY5ba4e

一、定义

基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物, 同一家族基因可以紧密排列在一起,形成一个基因簇,但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式。

二、关于TBtools分析流程

课程链接:https://www.bilibili.com/video/BV1324y1Z7g5/?spm_id_from=333.337.search-card.all.click&vd_source=07fa9fb328fa4b7368bab559e8cd9fe4

TBtools下载:https://zhuanlan.zhihu.com/p/673607023

1.数据准备

在ncbi上进行搜索,下载fasta格式文件、基因组注释信息

2.基因筛选

使用TBtools,进行blast比对,取比对合集,输出结果

3.制图

Motif分析、基因位置、基因结构、顺式作用元件、结构域预测、基因进化树、基因共线性、综合图。具体流程可见课程链接。

三、关于HMMER分析流程

四、筛选命令

hmmsearch --cut_tc --(--domE 1e-5 --)domtblout a.out a.hmm all.fas #对阈值进行筛选

grep -v "#" a.out | cut -f1 -d' ' | sort -u > a.id.txt #提取ID

sort a.id.txt > a.id.sorted

sort -m file1.txt file2.txt | uniq > c.id.txt #合并ID

seqkit grep -f c.id.txt all.fas -o a.fasta #提取序列

mafft a.fasta > a.ali.fasta

trimal -keepseqs -in a.ali.fasta -out a.trim.fasta -automated1

FastTree a.trim.fasta > a.phb#建树

使用示例:

hmmsearch --domE 1e-5 --domtblout Tgr.out PF01397.hmm Tgra.chr.pep

grep -v "#" Tgr.out | cut -f1 -d' ' | sort -u > PF01397.id.txt

sort PF01397.id.txt > PF01397.id.sorted

sort PF03936.id.txt > PF03936.id.sorted

sort -m PF01397.id.sorted PF03936.id.sorted | uniq > tgr.id.txt

seqkit grep -f tgr.id.txt Tgra.chr.pep -o tgr.fasta

使用上述代码,再次筛选选出attps.fasta

cat tgr.fasta attps.fasta > all.fasta

mafft all.fasta > all.ali.fasta

trimal -keepseqs -in all.ali.fasta -out all.trim.fasta -automated1

FastTree all.trim.fasta > all.phb

五、错误总结

1.id重复

可以使用less命令,查看文件,/+id查看重复。

2.筛选出空文件

使用vim命令,esc:行数,搜索具体问题,进行更改

3.并集

鉴定TPS时,两个HMM结果需取并集不是交集