By zhuhangbo, 16 March, 2025
Forums

转录组数据量化指标详解

一、前言

在转录组分析中,Reads、Count、RPK、RPKM、TPM、CPM等指标用于量化基因表达。本文结合实际案例,解析各指标的计算公式、计算实例及使用范围,帮助理解其应用逻辑。

二、指标解析

(一)Read

  • 定义:在单端测序中,Reads指测序生成的短序列(reads)成功比对到目标基因(或转录本)的数量。如图中绿色短序列,若为单端测序,统计比对到基因外显子区域的这些序列数量,即为对应基因的 Reads 数。
  • 使用范围:作为单端测序的原始量化数据,仅反映基因在单端测序中的被检测情况。由于未标准化,其数值易受基因长度(长基因更易获得更多 Reads)和测序深度影响,仅适用于同一样本内的简单比较(如技术重复间的初步观察),无法直接用于跨样本或复杂的表达差异分析。

说人话就是,有多少片段 map 到了基因上边

(二)Count

  • 定义:针对双端测序,Count表示比对到目标基因(或转录本)的片段数量。双端测序会产生一对末端序列(reads 对),每成功比对到基因上的一对片段,计为 1 个 Count。如图中若为双端测序模式,统计比对到基因区域的片段对数,即为该基因的 Count 值。
  • 使用范围:作为双端测序的原始计数数据,是后续标准化分析(如计算 FPKM、TPM 等)的基础输入。但未标准化的 Count 同样受基因长度和测序深度干扰,不能直接用于跨样本比较或差异分析,需通过 RPKM、TPM 等方法标准化后,才能准确评估基因表达水平。

接下来,看一张图,就全部明白了,但是首先,我们要知道如何定义一个基因的长度

基因长度的定义

方法描述适用场景
a. 基因最长的转录本长度选取基因所有转录本中长度最长的转录本转录本差异大且最长转录本主导表达的基因
b. 多个转录本长度的平均值计算基因所有转录本长度的平均值转录本表达均衡的基因
c. 非重叠外显子长度之和(L1+L2+L3+L4)将基因外显子区域(不含内含子)的非重叠部分长度相加常用方法,聚焦成熟mRNA编码区域
d. 非重叠 CDS 序列长度之和仅计算基因编码蛋白质的 CDS 区域非重叠部分长度总和关注蛋白质编码的表达分析

这里我们选择 c 作为一个基因的长度

说人话就是 Counts 就是一个 Gene 的所有 Reads

(三)RPK(Reads Per Kilobase)

\( RPK_i = 10^3 \cdot \frac{n_i}{l_i} \) (\(n_i\)为基因Counts,\(l_i\)为基因长度,单位kb)

实例

基因Sample1 (counts)基因长度Sample1 (RPK)
Gene A (2kb)82 kb\(10^3 \cdot 8/2000 = 4\)
Gene B (1kb)61 kb\(10^3 \cdot 6/1000 = 6\)

(四)RPKM(Reads Per Kilobase of transcript per Million mapped reads)多用于单端测序

\( RPKM_i = 10^9 \cdot \frac{n_i}{l_i \cdot \sum_j n_j} = 10^6 \cdot \frac{RPK_i}{\sum_j n_j} \) (\(\sum_j n_j\)为样本总Counts)

实例

基因Sample1 (counts)Sample2 (counts)Sample1 (RPKM)Sample2 (RPKM)
Gene A (2kb)816\(0.4 \cdot 10^6\)\(0.1 \cdot 10^6\)
Gene B (1kb)264\(0.2 \cdot 10^6\)\(0.8 \cdot 10^6\)

以Sample1的Gene A为例: \( RPKM_1 = 10^9 \cdot \frac{8}{2000 \cdot (8 + 2)} = 10^6 \cdot \frac{4}{8 + 2} = 0.4 \cdot 10^3 \)

(五)TPM(Transcripts Per Million)

\( TPM_i = 10^6 \cdot \frac{RPK_i}{\sum_j RPK_j} = 10^6 \cdot \frac{n_i/l_i}{\sum_j (n_j/l_j)} \)

实例

基因Sample1 (counts)Sample2 (counts)Sample1 (TPM)Sample2 (TPM)
Gene A (2kb)816\(0.667 \cdot 10^6\)\(0.111 \cdot 10^6\)
Gene B (1kb)264\(0.333 \cdot 10^6\)\(0.889 \cdot 10^6\)

以Sample1的Gene A为例: \( TPM_a = 10^6 \cdot \frac{8/2000}{8/2000 + 2/1000} \approx 0.667 \cdot 10^6 \)

(六)CPM(Counts Per Million)

\( CPM_i = 10^6 \cdot \frac{n_i}{\sum_j n_j} \)

实例

基因Sample1 (counts)Sample2 (counts)Sample1 (CPM)Sample2 (CPM)
Gene A (2kb)816\(0.8 \cdot 10^6\)\(0.2 \cdot 10^6\)
Gene B (1kb)264\(0.2 \cdot 10^6\)\(0.8 \cdot 10^6\)

以Sample1的Gene A为例: \( CPM_a = 10^6 \cdot \frac{8}{8 + 2} = 0.8 \cdot 10^6 \)

三、总结

指标计算核心逻辑适用比较场景
RPK基因长度标准化单样本内基因比较
RPKM基因长度+测序深度标准化(单端)样本内比较,早期跨样本
TPM基因长度+测序深度标准化(全局)组内+组间比较,差异分析
CPM测序深度标准化组间比较,低表达基因筛选

通过理解各指标的计算逻辑与适用范围,结合实际案例分析,可在转录组研究中更精准地选择量化指标,提升分析结果的可靠性。