【金山文档 | WPS云文档】 构建发育树 https://www.kdocs.cn/l/cjY4WQY5ba4e
一、定义
基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物, 同一家族基因可以紧密排列在一起,形成一个基因簇,但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式。
二、关于TBtools分析流程
TBtools下载:https://zhuanlan.zhihu.com/p/673607023
1.数据准备
在ncbi上进行搜索,下载fasta格式文件、基因组注释信息
2.基因筛选
使用TBtools,进行blast比对,取比对合集,输出结果
3.制图
Motif分析、基因位置、基因结构、顺式作用元件、结构域预测、基因进化树、基因共线性、综合图。具体流程可见课程链接。
三、关于HMMER分析流程
四、筛选命令
hmmsearch --cut_tc --(--domE 1e-5 --)domtblout a.out a.hmm all.fas #对阈值进行筛选
grep -v "#" a.out | cut -f1 -d' ' | sort -u > a.id.txt #提取ID
sort a.id.txt > a.id.sorted
sort -m file1.txt file2.txt | uniq > c.id.txt #合并ID
seqkit grep -f c.id.txt all.fas -o a.fasta #提取序列
mafft a.fasta > a.ali.fasta
trimal -keepseqs -in a.ali.fasta -out a.trim.fasta -automated1
FastTree a.trim.fasta > a.phb#建树
使用示例:
hmmsearch --domE 1e-5 --domtblout Tgr.out PF01397.hmm Tgra.chr.pep
grep -v "#" Tgr.out | cut -f1 -d' ' | sort -u > PF01397.id.txt
sort PF01397.id.txt > PF01397.id.sorted
sort PF03936.id.txt > PF03936.id.sorted
sort -m PF01397.id.sorted PF03936.id.sorted | uniq > tgr.id.txt
seqkit grep -f tgr.id.txt Tgra.chr.pep -o tgr.fasta
使用上述代码,再次筛选选出attps.fasta
cat tgr.fasta attps.fasta > all.fasta
mafft all.fasta > all.ali.fasta
trimal -keepseqs -in all.ali.fasta -out all.trim.fasta -automated1
FastTree all.trim.fasta > all.phb
五、错误总结
1.id重复
可以使用less命令,查看文件,/+id查看重复。
2.筛选出空文件
使用vim命令,esc:行数,搜索具体问题,进行更改
3.并集
鉴定TPS时,两个HMM结果需取并集不是交集