Forums
整理工作的时候发现,有一个模块可以单独拎出来完成一个功能,且目前没有这样的软件,就把这块代码拿出来单独封装一下。取名为Align2CDS。这样做也是为了具体化工作,看别的毕业论文的时候就会发现他们会给自己的一个单独的模块取名。
Align2CDS的具体功能
步骤
描述
是否有现成工具
建议方式
1. CDS → pep 翻译
翻译CDS为蛋白序列
✅ 有:EMBOSS transeq、Biopython、TransDecoder
推荐用 Biopython 脚本或 Transeq
2. 蛋白序列比对
对pep进行多序列比对
✅ 有:MAFFT、Clustal Omega、MUSCLE 等
推荐用 MAFFT
3. 删除低质量区域(gap列过滤)
所有出现gap的位点在所有序列中统一删除
❌ 没有工具精确支持你定义的“gap并集删除”策略
✔️ 需要你写脚本完成
4. 将pep对齐映射回原CDS(三联体级别)
把过滤后pep重新映射到CDS的对应密码子
❌ 没有现成工具(仅有部分ORF工具能做简单映射)
✔️ 需要你写脚本完成
调试过程
94ababb97345:/home/blast/2/align2cds
从pobsm代码 /home/blast/2拎出来。
align2cds.py是测试这块代码的完整性
align2cds2.2.py,简化代码,没有改变逻辑和功能
align2cds2.3.py封装
参数
含义
默认值
-i / --input
输入的 DNA fasta 文件
selected_sequences_1.fasta
-o / --output
最终输出文件名
dna_seq_for_paml.txt
-t / --tempdir
临时文件保存目录
./tmp_align2codon/