By zhenzixu, 31 December, 2025
Forums

数据信息

通过Cell Ranger获得的基因表达矩阵

以基迪奥三月份数据为例:

质控前:

质控后:

 

使用Seurat包生成Seurat对象进行后续数据处理

一、数据准备

Seurat对象构建

二、数据预处理

主要包括QC质控、数据标准化

1.基因定量质控(QC)

质控的核心指标包括:

每个细胞的基因数(nFeature_RNA):过低可能是破碎细胞,过高可能是双细胞。

每个细胞的 UMI 数(nCount_RNA):反映细胞的转录本总量。

线粒体基因比例(percent.mt):过高提示细胞凋亡(通常阈值 5%-10%)。

2.均一化(数据标准化)

Seurat 默认使用LogNormalize(总 UMI 归一化后取对数),也可根据需求选择SCTransform

(更适合异质性高的数据集)。

三、鉴定高变基因

鉴定数据集中细胞间表现高变异性特征的基因,即在某些细胞中高表达却在其他细胞中低表达的基因

四、降维聚类

单细胞转录组数据的核心特点是高维稀疏:一个单细胞数据集通常包含数千至数万个细胞,每个细胞检测上万个基因的表达量,但大部分基因的表达值为 0(稀疏性)。

直接基于上万维的基因表达矩阵进行聚类、距离计算(如欧式距离、余弦距离),会消耗大量内存和计算时间,甚至超出普通服务器的算力上限。

在高维空间中,数据点之间的距离会趋于一致,传统的聚类算法(如 K-means)和降维前的可视化(如散点图)会完全失效,无法区分细胞群体。

高维基因表达矩阵中,大量基因的表达差异是随机噪声(如技术误差、低表达基因的随机波动)或冗余信息(如共表达基因)。降维可以保留生物学上有意义的变异(如细胞类型差异、发育阶段差异),同时过滤无关噪声。

根据降维过程中是否保留数据的线性结构,可将降维方法分为线性降维和非线性降维两大类

在单细胞分析中的作用:最常用的线性降维方法,通常先对基因表达矩阵进行 PCA,选取前x 个 PCs 作为后续非线性降维和聚类的输入

五、计算Marker基因

单细胞 Marker 基因的计算本质是统计学差异检验,核心目标是:筛选出目标细胞群与其他所有细胞群中,表达量存在显著差异且特异性极强的基因,所有计算均基于降维聚类后得到的细胞分群结果(无分群则无 Marker 基因分析)。

计算的 2 个核心评判维度:

所有 Marker 基因筛选,都会同时评估以下两个指标,只有双达标才能判定为合格 Marker:

1. 统计学显著性:组间表达差异是否可靠

衡量目标细胞群与其他细胞群的表达差异,是否由生物学差异导致,而非随机噪声。重点关注P 值、校正后 P 值,数值越小,差异越可靠。

2. 表达特异性:基因在目标群的表达是否特异

衡量基因在目标细胞群的表达占比、表达量,是否远高于其他细胞群。重点关注表达比例、倍数变化(FC),是区分 差异基因 和 Marker 基因 的关键(差异基因≠Marker 基因)。

 

关键注意事项

物种适配性:线粒体基因前缀需根据物种调整,若参考基因组的线粒体基因无特定前缀,需手动筛选线粒体基因列表。

参数调整:

质控阈值(nFeature_RNA、nCount_RNA、percent.mt)需根据数据分布调整,避免过度过滤。

聚类分辨率(resolution)需结合生物学背景优化,分辨率越高,聚类越细。

PCA 维度数需通过ElbowPlot选择,通常取拐点前的维度。

SCTransform vs 传统归一化:SCTransform能更好地校正测序深度和技术噪声,推荐用于大部分单细胞数据集。

结果验证:Marker 基因需结合已知的细胞类型标记基因(如文献、数据库)验证聚类的生物学意义。