By ruiyuan Li, 27 June, 2025
Forums

【金山文档 | WPS云文档】 Align2CDS
https://kdocs.cn/l/cq9vXOhXsTrk

整理工作的时候发现,有一个模块可以单独拎出来完成一个功能,且目前没有这样的软件,就把这块代码拿出来单独封装一下。取名为Align2CDS。这样做也是为了具体化工作,看别的毕业论文的时候就会发现他们会给自己的一个单独的模块取名。

Align2CDS的具体功能

步骤

描述

是否有现成工具

建议方式

1. CDS → pep 翻译

翻译CDS为蛋白序列

有:EMBOSS transeqBiopythonTransDecoder

推荐用 Biopython 脚本或 Transeq

2. 蛋白序列比对

对pep进行多序列比对

有:MAFFTClustal OmegaMUSCLE

推荐用 MAFFT

3. 删除低质量区域(gap列过滤)

所有出现gap的位点在所有序列中统一删除

没有工具精确支持你定义的“gap并集删除”策略

✔️ 需要你写脚本完成

4. 将pep对齐映射回原CDS(三联体级别)

把过滤后pep重新映射到CDS的对应密码子

没有现成工具(仅有部分ORF工具能做简单映射)

✔️ 需要你写脚本完成

调试过程

94ababb97345:/home/blast/2/align2cds

从pobsm代码 /home/blast/2拎出来。

align2cds.py是测试这块代码的完整性

align2cds2.2.py,简化代码,没有改变逻辑和功能

align2cds2.3.py封装

参数

含义

默认值

-i / --input

输入的 DNA fasta 文件

selected_sequences_1.fasta

-o / --output

最终输出文件名

dna_seq_for_paml.txt

-t / --tempdir

临时文件保存目录

./tmp_align2codon/