单细胞下游分析-基因定量质控，均一化降维聚类，marker基因鉴定

By zhenzixu, 31 December, 2025

Forums

数据信息

通过Cell Ranger获得的基因表达矩阵

以基迪奥三月份数据为例：

质控前：

质控后：

使用Seurat包生成Seurat对象进行后续数据处理

一、数据准备

Seurat对象构建

二、数据预处理

主要包括QC质控、数据标准化

1.基因定量质控（QC）

质控的核心指标包括：

每个细胞的基因数（nFeature_RNA）：过低可能是破碎细胞，过高可能是双细胞。

每个细胞的 UMI 数（nCount_RNA）：反映细胞的转录本总量。

线粒体基因比例（percent.mt）：过高提示细胞凋亡（通常阈值 5%-10%）。

2.均一化（数据标准化）

Seurat 默认使用LogNormalize（总 UMI 归一化后取对数），也可根据需求选择SCTransform

（更适合异质性高的数据集）。

三、鉴定高变基因

鉴定数据集中细胞间表现高变异性特征的基因，即在某些细胞中高表达却在其他细胞中低表达的基因

四、降维聚类

单细胞转录组数据的核心特点是高维稀疏：一个单细胞数据集通常包含数千至数万个细胞，每个细胞检测上万个基因的表达量，但大部分基因的表达值为 0（稀疏性）。

直接基于上万维的基因表达矩阵进行聚类、距离计算（如欧式距离、余弦距离），会消耗大量内存和计算时间，甚至超出普通服务器的算力上限。

在高维空间中，数据点之间的距离会趋于一致，传统的聚类算法（如 K-means）和降维前的可视化（如散点图）会完全失效，无法区分细胞群体。

高维基因表达矩阵中，大量基因的表达差异是随机噪声（如技术误差、低表达基因的随机波动）或冗余信息（如共表达基因）。降维可以保留生物学上有意义的变异（如细胞类型差异、发育阶段差异），同时过滤无关噪声。

根据降维过程中是否保留数据的线性结构，可将降维方法分为线性降维和非线性降维两大类

在单细胞分析中的作用：最常用的线性降维方法，通常先对基因表达矩阵进行 PCA，选取前x 个 PCs 作为后续非线性降维和聚类的输入

五、计算Marker基因

单细胞 Marker 基因的计算本质是统计学差异检验，核心目标是：筛选出目标细胞群与其他所有细胞群中，表达量存在显著差异且特异性极强的基因，所有计算均基于降维聚类后得到的细胞分群结果（无分群则无 Marker 基因分析）。

计算的 2 个核心评判维度：

所有 Marker 基因筛选，都会同时评估以下两个指标，只有双达标才能判定为合格 Marker：

1. 统计学显著性：组间表达差异是否可靠

衡量目标细胞群与其他细胞群的表达差异，是否由生物学差异导致，而非随机噪声。重点关注P 值、校正后 P 值，数值越小，差异越可靠。

2. 表达特异性：基因在目标群的表达是否特异

衡量基因在目标细胞群的表达占比、表达量，是否远高于其他细胞群。重点关注表达比例、倍数变化（FC），是区分差异基因和 Marker 基因的关键（差异基因≠Marker 基因）。

关键注意事项

物种适配性：线粒体基因前缀需根据物种调整，若参考基因组的线粒体基因无特定前缀，需手动筛选线粒体基因列表。

参数调整：

质控阈值（nFeature_RNA、nCount_RNA、percent.mt）需根据数据分布调整，避免过度过滤。

聚类分辨率（resolution）需结合生物学背景优化，分辨率越高，聚类越细。

PCA 维度数需通过ElbowPlot选择，通常取拐点前的维度。

SCTransform vs 传统归一化：SCTransform能更好地校正测序深度和技术噪声，推荐用于大部分单细胞数据集。

结果验证：Marker 基因需结合已知的细胞类型标记基因（如文献、数据库）验证聚类的生物学意义。