Cell Ranger是10x Genomics公司开发的用于处理10x单细胞RNA测序数据的生物信息学工具。能够将原始测序数据(FASTQ文件)转换为基因表达矩阵,并进行基本的质控和分析。
主要功能包括:
- 数据预处理:包括去除低质量细胞、去除环境污染和嵌合体等,以保证后续分析的准确性和可靠性。
- 基因表达计数:根据测序数据,将每个细胞中的基因表达量进行计数,得到基因表达矩阵。
- 细胞聚类和表达模式分析:使用聚类算法将细胞分组,并对每个细胞群体的表达模式进行分析,揭示细胞群体之间的相似性和差异性。
- 差异表达基因分析:对不同细胞群体之间的基因表达模式进行比较,找出在不同群体之间显著差异表达的基因。
- 数据可视化:提供丰富的可视化工具,在降维空间中展示细胞和基因的分布、聚类结果等。
主要命令模块:
- cellranger count # 单个样本分析
- cellranger multi # 多组学样本分析
- cellranger aggr # 多个样本聚合
- cellranger reanalyze # 重新分析
- cellranger mkref # 构建参考基因组
- cellranger mat2csv # 矩阵格式转换
- cellranger vdj # 免疫组库分析
- cellranger atac # ATAC-seq分析
- cellranger arc # 多组学分析
软件依赖:
glibc >= 2.14
Python 3.6+
安装步骤:
10x Genomics官网: https://www.10xgenomics.com/support/software/cell-ranger/downloads
- 在官网获得下载地址
2.解压
tar -xzvf cellranger-9.0.1.tar.gz3.将Cell Ranger添加到系统的PATH环境变量中
nano ~/.bashrc
#在末尾添加 #path请填入下载路径
export PATH=/path/cellranger-9.0.1:$PATH
#使更改生效
source ~/.bashrc
#安装检查
cellranger --version核心工作流程:
原始FASTQ → Barcode处理 → UMI计数 → 序列比对 → 基因定量 → 细胞识别
自定义参考基因组构建
cellranger mkref --genome=自定义基因组名称 \
--fasta=genome.fa \
--genes=genes.gtf参数说明:
--genome:这个参数指定了输出目录的名称。命令执行后,会生成一个新文件夹,里面就是构建好的索引
--fasta:基因组FASTA文件路径
--genes:GTF注释文件路径
文件要求:
genome.fa: 基因组FASTA文件
genes.gtf: 基因注释GTF文件
必须符合特定格式要求
成功完成的标志:
出现 Pipestance completed successfully!
在 Tgra_genome 目录中生成完整文件结构
# 检查参考基因组目录结构
ls -la /scstpipline/rawdata/refdata/Tgra_genome/
# 应该看到类似这样的文件:
# - reference.json
# - fasta/
# - genes/
# - star/cellranger-count 定量
cellranger count --id=自定义名称 \
--transcriptome= \
--fastqs= \
--sample= \
--create-bam=true参数说明:
--id:指定此次运行的输出目录名称
--transcriptome:指定参考基因组目录路径
--fastqs:指定存放FASTQ文件的目录路径
--sample:指定要分析的样本ID,它必须与FASTQ文件名中的样本标识相匹配
--create-bam:是否创建 BAM 文件
true:生成 BAM 文件,包含比对信息,可用于下游分析
false:不生成 BAM 文件,节省磁盘空间和处理时间