By ruiyuan Li, 27 June, 2025
Forums
整理工作的时候发现,有一个模块可以单独拎出来完成一个功能,且目前没有这样的软件,就把这块代码拿出来单独封装一下。取名为Align2CDS。这样做也是为了具体化工作,看别的毕业论文的时候就会发现他们会给自己的一个单独的模块取名。 Align2CDS的具体功能 步骤 描述 是否有现成工具 建议方式 1. CDS → pep 翻译 翻译CDS为蛋白序列 ✅ 有:EMBOSS transeq、Biopython、TransDecoder 推荐用 Biopython 脚本或 Transeq 2. 蛋白序列比对 对pep进行多序列比对 ✅ 有:MAFFT、Clustal Omega、MUSCLE 等 推荐用 MAFFT 3. 删除低质量区域(gap列过滤) 所有出现gap的位点在所有序列中统一删除 ❌ 没有工具精确支持你定义的“gap并集删除”策略 ✔️ 需要你写脚本完成 4. 将pep对齐映射回原CDS(三联体级别) 把过滤后pep重新映射到CDS的对应密码子 ❌ 没有现成工具(仅有部分ORF工具能做简单映射) ✔️ 需要你写脚本完成 调试过程 94ababb97345:/home/blast/2/align2cds 从pobsm代码 /home/blast/2拎出来。 align2cds.py是测试这块代码的完整性 align2cds2.2.py,简化代码,没有改变逻辑和功能 align2cds2.3.py封装 参数 含义 默认值 -i / --input 输入的 DNA fasta 文件 selected_sequences_1.fasta -o / --output 最终输出文件名 dna_seq_for_paml.txt -t / --tempdir 临时文件保存目录 ./tmp_align2codon/