Description

如果有什么常用的资源,可以大家一起分享的,请在此处分享。

By ruiyuan Li, 27 June, 2025
Forums
整理工作的时候发现,有一个模块可以单独拎出来完成一个功能,且目前没有这样的软件,就把这块代码拿出来单独封装一下。取名为Align2CDS。这样做也是为了具体化工作,看别的毕业论文的时候就会发现他们会给自己的一个单独的模块取名。 Align2CDS的具体功能 步骤 描述 是否有现成工具 建议方式 1. CDS → pep 翻译 翻译CDS为蛋白序列 ✅ 有:EMBOSS transeq、Biopython、TransDecoder 推荐用 Biopython 脚本或 Transeq 2. 蛋白序列比对 对pep进行多序列比对 ✅ 有:MAFFT、Clustal Omega、MUSCLE 等 推荐用 MAFFT 3. 删除低质量区域(gap列过滤) 所有出现gap的位点在所有序列中统一删除 ❌ 没有工具精确支持你定义的“gap并集删除”策略 ✔️ 需要你写脚本完成 4. 将pep对齐映射回原CDS(三联体级别) 把过滤后pep重新映射到CDS的对应密码子 ❌ 没有现成工具(仅有部分ORF工具能做简单映射) ✔️ 需要你写脚本完成 调试过程 94ababb97345:/home/blast/2/align2cds 从pobsm代码 /home/blast/2拎出来。
By zhuhangbo, 15 June, 2025
Forums

一、技术背景与动机

在自然语言处理领域,基于Transformer的大语言模型(LLM)在生成较长序列时,传统Attention机制的时间复杂度会急剧上升。算法原理上,每生成一个新Token都需要与前面所有Token计算相关性,导致时间复杂度达到O(n²):

$P(x_{n+1} \mid x_1, \dots, x_n) \propto \exp\left( \frac{Q_{n+1} \cdot K_j}{\sqrt{d_k}} \right), \quad j=1,\dots,n$