- 原始数据获取:
Raw reads (FASTQ)
从测序仪获得的原始 FASTQ 格式数据。
- 数据预处理:
① 质量控制 (Quality control)
② 数据预处理 (Preprocessing)
去除低质量 reads、接头污染等,获得 Preprocessed reads (FASTQ)。
- 序列比对:
③ 比对到参考基因组 (Aligning reads)
使用比对工具(如 HISAT2、STAR)将 reads 比对到参考基因组,生成 Aligned reads (BAM) 文件。
- 转录本组装与定量:
④ 基因组引导的转录组组装 (Genome-guided transcriptome assembly)
使用 Cufflinks、StringTie 等工具构建 Gene and transcript models (GTF)。
⑤ 表达量计算 (Calculation expression levels)
计算基因和转录本的表达丰度,获得 Abundance estimates for genes and transcripts。
- 差异表达分析:
⑥ 比较不同条件 (Comparing expression between conditions)
使用 DESeq2、edgeR 等工具分析差异表达,最终获得 List of differentially expressed genes and transcripts。
RNA-seq转录组分析流程
主要包括三个部分,分别是前期预分析、核心分析和高级分析,如图所示。前期预分析主要聚焦于分析流程的设计和数据的质量控制。核心分析则主要是读段比对、转录组片段的拼接组装以及量化的过程,深入挖掘RNA序列中的信息。高级分析则专注于新转录本鉴定、转录本的注释以及差异性表达等分析环节,为深入理解生物转录过程提供有力支持(所在课题组开发)。
利用RNA-Seq技术,我们可以针对物种的不同组织或不同时期的转录本进行测序,进而开展后续的转录组分析,如进行差异性达分析等。
【金山文档 | WPS云文档】 学习RNA-seq转录组分析流程
https://www.kdocs.cn/l/creo1dfp3ptb