Forums
基因组学基因组学
ch1
1.基因组学定义:
基因组学是结合了遗传学的要素对生物整个基因组的研究。即结合了重组DNA,DNA测序方法和生物信息学技术,对基因组的结构和功能进行测序,组装和分析。
2.Linux 【开放源代码】
为什么使用 Linux?
1.一个稳定、多用户和多任务系统
2.大多数网络服务器在基于Linux/Unix的系统上运行
3.大多数生物信息学程序或工具在Linux/Unix平台上运行
4.命令行的灵活性
5.处理大量数据集的灵活性
6.一项不错的投资
ch2
1.DNA 测序
**第一代测序**——以**Sanger链终止法的原理**为例:
Sanger链终止法也称为Sanger双脱氧链终止法 ,是由Sanger在1977年发明的一种用于==确定核酸中核苷酸序列==的方法。该方法因其准确性和可靠性,成为第一代DNA测序技术的代表,并在基因分析中广泛应用;Sanger链终止法的核心原理是在DNA聚合酶的作用下,DNA链的延伸会在掺入双脱氧核苷酸时随机终止。==双脱氧核苷酸==(如ddATP、ddTTP、ddGTP、ddCTP)在3'端缺少羟基(-OH),无法与下一个脱氧核苷酸形成磷酸二酯键,因此链延伸会在此处停止。通过在四个独立的反应体系中分别加入这四种双脱氧核苷酸,可以生成以不同碱基结尾的DNA片段。这些片段通过 sds-page 凝胶电泳分离后,根据其长度和终止位置可以从下往上读,推导原始DNA序列。
与现代测序技术的对比:
**Sanger法**:单次测序长度约500-1000 bp,适合短片段高精度测序。
**下一代测序(NGS)**:如Illumina、PacBio,通量高(百万级读长/次),成本低,但依赖复杂数据分析。
Do you think Sanger sequencing technology is still needed? Why?
桑格测序技术在生物学领域仍然具有不可替代的作用。尽管新一代测序技术(NGS)发展迅速,但桑格测序以其==高准确性和可靠性==,依然是许多研究中的“金标准”。其单次读长可达500 - 1000个碱基,能够精确测定短片段DNA序列,非常适合用于质粒、小基因片段以及关键基因区域的测序。例如,在基因克隆实验中,桑格测序可用于验证插入片段的正确性;在临床诊断中,它可用于检测特定基因的致病突变,如BRCA基因的突变检测。此外,桑格测序还可用于验证NGS结果的准确性,尤其是在关键位点或低频突变的验证中。对于小规模测序需求,桑格测序的成本效益也较高,无需像NGS那样需要大量样本分摊成本。因此,桑格测序在生物学研究和应用中仍不可或缺,特别是在对精度要求极高的场景中。
在新一代测序技术(NGS)出现之前,科学界主要通过一些传统的方法和技术来开展大规模(高通量)的研究项目。
1. 传统测序技术的组合应用
桑格测序技术是当时的主要测序手段。虽然其单次测序通量较低,但通过大规模的并行操作和自动化设备的应用,可以实现一定程度的高通量测序。具体来说,他们会先将基因组片段化,插入到载体(如**细菌人工染色体BAC**)中构建文库,然后对大量的克隆进行测序,最后通过生物信息学方法进行序列拼接和组装。
另外,还有一些基于物理或化学原理的辅助技术用于提高测序效率。例如,利用毛细管电泳技术来分离和检测桑格测序反应产物,相比传统的平板凝胶电泳,毛细管电泳可以实现更高的分辨率和更快的检测速度,从而加快测序进程。
2. 基因芯片技术
基因芯片是一种高通量的分子生物学技术。它通过将大量的已知DNA探针固定在芯片表面,然后将待测样本(如基因表达产物mRNA或基因组DNA片段)与芯片进行杂交。通过检测杂交信号的强度和位置,可以获取样本中基因的表达情况或基因组的某些特征。例如,在基因表达谱分析中,基因芯片可以同时检测成千上万个基因的表达水平,从而帮助研究人员了解细胞在不同生理或病理状态下的基因表达变化。在大规模的基因组研究中,基因芯片也被用于检测基因组的拷贝数变异等结构变化。
3.表达序列标签
EST是通过部分测序获得的cDNA序列片段。cDNA是由mRNA逆转录而来,因此EST反映了基因的转录产物,能够直接指示基因的表达情况。通过大规模测序cDNA文库中的随机克隆,可以获得大量的EST序列。EST技术在**基因发现、基因表达分析、基因功能预测和基因组注释**方面发挥了重要作用。
**4**. 大规模的克隆筛选和功能分析
在没有NGS技术之前,为了研究基因的功能,研究人员会构建大量的基因克隆文库。例如,通过构建cDNA文库来筛选和鉴定新的基因。他们会将细胞的mRNA逆转录成cDNA,然后插入到载体中构建文库。通过大规模的筛选,如酵母双杂交系统筛选蛋白质相互作用的基因,或者利用报告基因系统筛选具有特定功能的基因。这种方法虽然相对繁琐,但可以在一定程度上实现对基因功能的高通量研究。
这些传统的方法和技术虽然在效率和成本上不如NGS技术,但在当时为生命科学研究提供了重要的工具和手段,推动了生物学领域的发展。
第一代测序
读取长度可达1000bp,高精度;但是测序成本高,测序速度慢,吞吐量低;
第二代测序(NGS)

以下是三种测序技术的简要介绍:
**1. 焦磷酸测序(Pyrosequencing)**
**原理**:基于DNA合成过程中释放的焦磷酸(PPi),通过酶促反应将其转化为荧光信号。每次核苷酸掺入链中会触发一次发光,实时检测光信号以确定序列。
特点:
**长读长**:可测序约400-700 bp,适合分析重复区域。
**无需荧光标记**:直接检测化学反应发光。
**成本较高**:通量较低,试剂成本相对高。
**应用**:早期用于微生物基因组测序、宏基因组学及SNP检测(如454测序平台)。
**现状**:因通量低,逐渐被高通量技术取代。
**2. 合成测序(Sequencing-by-Synthesis, SBS)**
**原理**:利用DNA聚合酶在合成互补链时掺入荧光标记的dNTP,每次添加一个碱基即释放特定颜色荧光,通过成像记录序列。
特点:
**超高通量**:单次运行可测数十Gb数据(如Illumina NovaSeq)。
**短读长**:通常为50-300 bp,依赖双端测序弥补重复区域。
**低成本**:每Gb数据成本极低。
**应用**:全基因组测序、转录组分析、表观遗传学(甲基化)等大规模研究。
**现状**:目前市场主流技术(Illumina平台)。
**3. 连接法测序(Sequencing-by-Ligation, SBL)**
**原理**:通过DNA连接酶将荧光标记的寡核苷酸探针连接到模板DNA的特定位置,根据荧光信号确定连接的探针序列,逐步解码基因组。
特点:
**中等读长**:约20-35 bp,依赖循环连接步骤。
**高准确性**:通过双碱基编码减少误差。
**低通量**:成本较高,通量低于SBS。
**应用**:曾用于人类基因组计划(SOLiD平台),现多被SBS替代。
**现状**:已退出主流市场,主要用于特定研究场景。
对比总结
技术读长通量成本准确性典型应用**焦磷酸测序**长(~700 bp)低高高宏基因组、重复区域分析**合成测序**短(50-300 bp)极高极低高全基因组、转录组**连接法测序**中(20-35 bp)中中中曾用于全基因组注释
这些技术推动了测序成本的下降和通量的提升,目前合成测序(Illumina)占据主导地位,而长读长技术(如PacBio、Oxford Nanopore)正成为补充,解决复杂重复区域的测序难题。
总:相较于第一代桑格测序(Sanger Sequencing),其核心优势在于**通量高、成本低、自动化程度高**

第二代测序的核心思想是通过**大规模并行化**实现同时测定数百万至数十亿条DNA序列。其基本流程包括:
**DNA文库构建**
将待测DNA片段化,连接特定的接头(adapters),形成适配测序仪的文库。
文库片段通过固相载体(如微球、芯片表面)固定,便于后续扩增和测序。
**体外扩增**
**桥式扩增(Bridge Amplification)**(如Illumina):通过互补引物在固相表面反复延伸,形成密集的DNA簇(cluster)。
**乳液PCR(Emulsion PCR)**(如454、Ion Torrent):在油水乳液中实现单分子扩增,每个液滴内生成大量同一模板的拷贝。
**边合成边测序(SBS, Sequencing-by-Synthesis)**
通过化学方法逐个添加荧光标记的dNTP,每次仅允许一个碱基掺入,通过检测荧光信号确定序列。
根据不同平台,具体方法有所差异:
**Illumina**:可逆终止子(reversible terminator)技术,荧光标记的dNTP掺入后去除荧光基团和终止子,循环进行。
**454(Pyrosequencing)**:基于焦磷酸发光原理,通过检测释放的焦磷酸引发的化学发光信号。
**SOLiD(Sequencing by Oligo Ligation and Detection)**:基于寡核苷酸连接反应,通过荧光标记的连接探针检测碱基。
**数据采集与分析**
高分辨率成像系统捕获荧光信号或化学发光信号,转化为碱基序列(A/T/C/G)。
通过生物信息学工具进行序列拼接、比对、变异检测等分析。
NGS 应用

第三代测序(TGS)
1.单分子实时测序(SMRT)
**原理**
单分子实时测序(Single-molecule Real-time Sequencing,SMRT)是由PacBio公司开发的第三代测序技术。其核心原理是基于零模式波导(Zero-mode Waveguides,ZMW)技术和边合成边测序的方法。在测序过程中,DNA模板被固定在ZMW孔底部,4种不同荧光标记的脱氧核苷酸三磷酸(dNTP)通过布朗运动进入检测区域。当dNTP与模板碱基匹配并被DNA聚合酶催化形成化学键时,荧光标记被激活并发出信号,通过检测荧光信号的存在时间来区分匹配的碱基。
**应用**
SMRT测序具有超长读长(可达数千个碱基)、无需模板扩增、能直接检测表观修饰位点等优点。它在小型基因组的从头测序和完整组装中表现良好,尤其适用于需要高完整性和准确性的基因组研究。此外,SMRT测序还被应用于表观遗传学、转录组学和大型基因组组装等领域。
**2.纳米孔测序**
**原理**
纳米孔测序技术是一种基于电信号的单分子测序技术。其核心原理是利用纳米孔(通常由生物纳米孔蛋白构成)嵌入在人工合成的多聚物薄膜中,膜两侧浸没在电解质溶液中并施加电压差。当DNA或RNA分子在马达蛋白的牵引下以单链形式穿过纳米孔时,不同碱基会引起电流的不同变化,通过检测这些电流变化来推断碱基类型。
**应用**
纳米孔测序技术具有超长读长(可达数十万个碱基)、实时测序、无需PCR扩增等特点。它在基因组测序中表现出色,尤其适合复杂基因组的组装和结构变异的检测。此外,纳米孔测序还被应用于病原微生物鉴定、甲基化研究、转录组学分析等领域。
ch3
第二代测序和第三代测序原理有什么不同?

序列数据文件格式

核酸测序数据库
**NCBI (美国国家生物技术信息中心)**
GenBank:收集所有公开的核酸序列
SRA (Sequence Read Archive):存储原始测序数据
dbGaP:基因组和表型关联研究数据库
**ENA (欧洲核苷酸档案馆)**
欧洲的序列数据存储库,与GenBank和DDBJ形成国际核酸序列数据库合作
**DDBJ (日本DNA数据库)**
日本的核酸序列数据库
**UCSC Genome Browser**
提供基因组注释数据和可视化工具
**ENSEMBL**
提供基因组注释和比较基因组学资源
**TCGA (癌症基因组图谱)**
癌症相关的基因组变异和临床数据
**GTEx (基因型-组织表达)**
提供基因表达和基因调控数据
**1000 Genomes Project**
收集全球人类遗传变异数据
蛋白测序数据库
1.PIR
2.SWISS-PROT
3.TrEMBL
结构数据库

表达数据库

**特定分类群数据集合(Specific Taxa Data Collections)**
特定分类群数据集合是指围绕某一生物类群(如人类、小鼠、水稻、果蝇、细菌等)系统性收集的基因组、转录组、蛋白质组等数据资源。这类数据库通常提供注释完善的基因结构、功能信息和比较基因组学工具,支持特定物种的深度研究。

Ch4
序列比对
**Sequence alignment(序列比对)** 是生物信息学中的核心方法,指通过比较两个或多个生物序列(如DNA、RNA或蛋白质序列),找出它们的相似区域和差异,从而推断功能、进化关系或结构特征。
NGS 可能存在的问题

传统测序工具是否适用于现代测序技术?为什么?
**简略回答:**
现代测序数据(如NGS/TGS)因**数据量庞大、读长差异大(短读长/长读长)、错误率高**,传统比对工具存在以下局限:
**计算效率低**:传统算法(如BLAST)复杂度高,无法处理Tb级数据。
**短读长适配性差**:难以解析重复序列、结构变异(如长插入缺失)。
**高错误率容忍度不足**:对第三代测序(如Nanopore原始错误率15%)的纠错能力弱。
**缺乏复杂样本支持**:宏基因组、单细胞数据易出现噪声干扰或误比对。
**功能单一**:无法满足多组学整合(如RNA-seq与表观遗传联合分析)需求。
现代工具(如Minimap2、BWA-MEM)通过索引加速、容错算法等优化,更适合当前数据特性。
序列组装:De novo assembly(从头组装)apply on long reads
De novo assembly(从头组装)是指在不依赖参考基因组的情况下,将测序得到的短读长或长读长序列拼接成完整基因组或大片段序列的过程。
基本原理:
**输入**:高通量测序数据(如Illumina短读长、PacBio/Nanopore长读长)。
**目标**:通过序列重叠区域(overlap)将片段拼接成连续的Contig(连续片段)和Scaffold(支架)。
关键步骤:
**数据预处理**:去除低质量reads、接头序列。
**k-mer分析**:统计短序列的k-mer频率,构建哈希表辅助组装。
**Contig组装**:通过重叠组装(如de Bruijn图算法)生成初始Contig。
**Scaffold构建**:利用长读长或物理图谱连接Contig,填补间隙。
De Bruijn 图 ( 德 布 莱 英 图 )
**De Bruijn图(德布莱英图)** 是生物信息学中用于基因组组装的核心数据结构,尤其适用于处理高通量测序数据(如Illumina短读长)。以下是其核心要点:
**1. 基本概念**
**定义**:由荷兰数学家Nicolaas de Bruijn提出的图论模型,通过分解序列为固定长度的子序列(k-mer)构建有向图。
核心组成:
**节点(Node)**:代表k-1长度的子序列(如k=3时,节点为"ATG")。
**边(Edge)**:代表k长度的子序列(如边"ATG"表示从节点"AT"到"TG"的连接)。
**2. 构建过程**
**输入**:测序得到的短读长(如Illumina的150 bp reads)。
**k-mer分割**:将每个read拆分为所有可能的k-mer(如k=3时,read "ATGCCG"生成 "ATG", "TGC", "GCC", "CCG")。
图构建:
每个k-mer作为边,起始k-1 mer为起点,结束k-1 mer为终点。
例如,k-mer "ATG"对应边:节点 "AT" → 节点 "TG"。
图遍历与组装**
**目标**:寻找一条**欧拉路径**(经过每条边恰好一次的路径),还原原始序列。
关键步骤:
**纠错**:去除低频边(可能来自测序错误)。
**路径搜索**:通过贪心算法或启发式方法拼接连续边,形成Contig(连续片段)。
优势与挑战
**优势****挑战**高效处理海量短读长数据对测序错误敏感(错误k-mer干扰路径)自动解析重复序列复杂图结构可能导致分支(需解决歧义)内存优化(稀疏图存储)需权衡k-mer长度(k过小导致节点过多,k过大丢失信息)
**5. 实际应用工具**
**SPAdes**:结合多k值策略,优化重复序列和低覆盖度区域组装。
**Velvet**:早期经典工具,通过合并气泡(bubbles)解决图分支。
**MEGAHIT**:针对宏基因组数据,内存高效,适合超大数据量。
**6. 示例**
**输入read**:`ATGCCG`(k=3)
**生成的边**:
`ATG`(AT → TG)、`TGC`(TG → GC)、`GCC`(GC → CC)、`CCG`(CC → CG)
**组装路径**:`ATG` → `TGC` → `GCC` → `CCG` → 原始序列 `ATGCCG`。
对比其他组装方法
**方法****原理****适用场景****De Bruijn图**k-mer分割+图遍历短读长(如Illumina)**OLC(重叠布局)**基于read间的重叠区域拼接长读长(如PacBio/Nanopore)
总结
**De Bruijn图**通过将测序数据转化为图结构,高效解决短读长数据的组装问题,是现代基因组组装(如人类基因组、宏基因组)的基石。其核心在于平衡k-mer长度、纠错能力和计算效率,工具如SPAdes和MEGAHIT通过优化图遍历策略显著提升了组装质量。
ch5
Overlap graph
Overlap Layout Consensus (use on long reads)
**Overlap Graph(重叠图)** 是基因组组装中另一种核心数据结构,尤其适用于处理**长读长测序数据**(如PacBio、Oxford Nanopore)。通过识别不同测序片段(reads)之间的**重叠区域**(overlap)构建有向图,节点代表reads,边表示重叠关系。与De Bruijn图不同,它直接基于序列间的重叠关系构建图模型,更直观地反映序列的连续性。
你认为在从头组装之前预处理是必要的吗?
是的,预处理是基因组从头组装(de novo assembly)中不可或缺的关键步骤。原始测序数据通常包含噪声、低质量序列和冗余信息,未经处理的直接组装可能导致以下问题:
**组装质量下降**:低质量reads或接头污染会引入错误,破坏Contig的连续性。
**计算资源浪费**:冗余数据会增加图结构的复杂度,降低组装效率。
**假阳性/假阴性风险**:噪声可能误导重叠区域识别,导致结构变异误判或关键基因遗漏。
Transcriptomics 转录组学


DNA Microarray 微阵列
1.是一种高通量分子生物学技术,通过固定化的DNA探针与样本核酸杂交,检测基因表达水平或基因多态性。**逐渐被RNA-seq替代**:因后者通量更高、灵敏度更好。
2.**核心应用**:
基因表达分析
比较不同组织、疾病状态(如癌 vs. 正常)的基因表达差异。
示例:发现乳腺癌中HER2基因的过表达。
单核苷酸多态性(SNP)检测
通过探针杂交识别基因组中的SNP位点(如GWAS研究)。
基因分型
检测病原体亚型(如HPV分型)或遗传疾病相关突变。
甲基化分析
结合亚硫酸盐处理,检测DNA甲基化状态(如肿瘤表观遗传变化)。

ch6
为什么微阵列芯片在基因组学研究中用得越来越少了?
微阵列芯片使用减少主要因以下原因:
**技术局限**:灵敏度低、依赖已知序列、动态范围窄,无法检测低丰度转录本或新基因。
**测序技术崛起**:RNA-seq成本下降,可全面解析转录组(如可变剪接、单细胞分析),分辨率更高。
**应用需求升级**:研究转向复杂场景(如单细胞、空间组学),需测序技术支持。
**成本效益**:RNA-seq规模效应显著,适合从少量到大队列研究,隐性成本更低。
**数据分析简化**:现代工具降低RNA-seq分析门槛,微阵列的标准化优势减弱。
例外场景:临床快速检测(如HPV分型)或降解样本分析仍保留微阵列价值。
RNA sequencing 测序

什么是全转录组测序?
**全转录组测序(RNA-seq)** 是通过高通量测序技术全面分析细胞或组织中所有RNA(包括mRNA、lncRNA、miRNA等)的组成和表达水平的方法。其核心目标是:
**全面性**:捕获所有RNA类型,揭示基因表达全貌。
**高分辨率**:检测低丰度RNA(如lncRNA)和可变剪接事件。
**功能关联**:解析RNA表达与疾病、发育等生物学过程的联系。
微矩阵和全转录测序

ch7 学生汇报 PPT
Population Genomics 种群基因组学是一门通过大规模基因组数据分析来调查种群内部和种群之间的遗传变异的学科,旨在阐明进化力量(如自然选择、遗传漂移和基因流动)如何塑造基因组多样性。其核心是,它采用全基因组变异检测来区分基因座特异性效应和全基因组效应,从而对微进化机制和种群历史提供更深入的见解。
Comparative genomics比较基因组学是一个深入研究基因、蛋白质和非编码区域的进化关系、结构构成和功能方面的科学领域。它通过检查单个生物体内和不同物种中发现的信息来实现这一目标。
Metagenomics元基因组学是一种基因组学研究方法,用于研究环境样本中所有微生物的基因组信息,包括细菌、真菌、病毒、古菌等。
Evolutionary genomics
ch8
Genome
基因组中突出的部分主要包括?
**编码基因(CDS)**:直接编码蛋白质的功能区域(如外显子)。
**调控元件**:启动子、增强子、沉默子等,控制基因表达。
**重复序列**:如转座子、卫星DNA,影响基因组稳定性和进化。
**非编码RNA区域**:如miRNA、lncRNA基因,tRNAs, ribosomal RNA (rRNA),microRNAs (miRNAs),small interfering RNAs (siRNAs) - regulate transcriptionpiwi-interacting RNA (piRNAs),参与表观调控和基因表达。
**结构变异区**:如拷贝数变异(CNV)、倒位/易位,关联疾病与适应性。
基因复制
Ks:同义【DNA 序列变化不改变 DNA 编码的蛋白质氨基酸序列】替换位点替换次数;
Ka:非同义【DNA 序列变化改变了DNA 编码的蛋白质氨基酸序列】替换位点替换次数;
Ka/Ks 比值:复制后选择性压力和漂移在基因差异中的作用。
Ka/Ks=1 中性进化,无声突变和替代突变的内容几乎相同;
Ka/Ks ≫1 正选择,意味着选择压力有效,替代是有利的;
Ka/Ks ≪1 纯化选择,净化选择是自然保持物种“统一”的方式,通过去除有害的基因变化这有助于确保只有不负面影响生存或繁殖的特征被传递下去,保持物种遗传的“统一”一致和功能
多倍体的优势?
**多倍体的优势主要包括:**
**遗传稳定性增强**:多倍体(如四倍体)在减数分裂时,同源染色体配对更灵活,减少不育风险(如小麦四倍体比二倍体更稳定)。
**杂种优势(异源多倍体)**:不同物种杂交形成的多倍体(如普通小麦)可结合双亲优良性状(抗病性、高产等)。
**环境适应性提升**:额外基因拷贝增强抗逆性(如盐碱地生长的多倍体水稻)。
**性状改良**:器官增大:多倍体植物果实、种子更大(如四倍体葡萄更饱满);产量提高:细胞体积增大,生物量增加(如多倍体棉花纤维更长)。
**进化潜力**:提供更多遗传变异,加速适应新环境或抵御病虫害。
ch9
需要一个组装和注释过的基因组吗?
**必须组装和注释**:新物种研究、精细功能分析、结构变异检测。
**可不严格处理**:已知参考基因组物种、靶向测序、简单验证实验。
关键权衡:
**数据深度**:低覆盖度数据可能无法支撑高质量组装。
**成本**:组装和注释耗时且计算资源密集,需与研究目标匹配。
构建基因组
什么是系统生物学?
**系统生物学(Systems Biology)简答题回答:**
**定义**:
整合生物学、数学、计算机科学,研究生物系统(如细胞、个体)中基因、蛋白质、代谢通路等组分的相互作用及整体行为。
**核心特点**:
**整体性**:关注系统整体功能,而非单一组分。
**多组学整合**:结合基因组、转录组、蛋白质组等多层次数据。
**动态与定量**:分析时间/空间动态变化,建立数学模型。
**网络为中心**:用网络图描述生物分子互作(如蛋白质互作网络)。
**主要方法**:
数据整合(多组学数据库构建)。
网络分析(识别枢纽基因、子模块)。
数学建模(微分方程、机器学习模拟动态)。
实验验证(CRISPR、单细胞测序)。
**应用领域**:
**疾病机制**:解析癌症信号通路网络。
**药物开发**:预测药物多靶点效应。
**合成生物学**:设计人工生物系统(如工程菌产药)。
**精准医学**:基于患者特异性系统特征制定治疗方案。
**挑战与前景**:
**挑战**:数据高维度、噪声多;模型构建与实验验证闭环难。
**前景**:AI加速建模;跨学科合作(生物学家+数据科学家)。
**总结**:系统生物学通过整合多尺度数据与动态建模,揭示生命系统的涌现特性,推动疾病研究、药物开发及合成生物学发展。
ch1
1.基因组学定义:
基因组学是结合了遗传学的要素对生物整个基因组的研究。即结合了重组DNA,DNA测序方法和生物信息学技术,对基因组的结构和功能进行测序,组装和分析。
2.Linux 【开放源代码】
为什么使用 Linux?
1.一个稳定、多用户和多任务系统
2.大多数网络服务器在基于Linux/Unix的系统上运行
3.大多数生物信息学程序或工具在Linux/Unix平台上运行
4.命令行的灵活性
5.处理大量数据集的灵活性
6.一项不错的投资
ch2
1.DNA 测序
**第一代测序**——以**Sanger链终止法的原理**为例:
Sanger链终止法也称为Sanger双脱氧链终止法 ,是由Sanger在1977年发明的一种用于==确定核酸中核苷酸序列==的方法。该方法因其准确性和可靠性,成为第一代DNA测序技术的代表,并在基因分析中广泛应用;Sanger链终止法的核心原理是在DNA聚合酶的作用下,DNA链的延伸会在掺入双脱氧核苷酸时随机终止。==双脱氧核苷酸==(如ddATP、ddTTP、ddGTP、ddCTP)在3'端缺少羟基(-OH),无法与下一个脱氧核苷酸形成磷酸二酯键,因此链延伸会在此处停止。通过在四个独立的反应体系中分别加入这四种双脱氧核苷酸,可以生成以不同碱基结尾的DNA片段。这些片段通过 sds-page 凝胶电泳分离后,根据其长度和终止位置可以从下往上读,推导原始DNA序列。
与现代测序技术的对比:
**Sanger法**:单次测序长度约500-1000 bp,适合短片段高精度测序。
**下一代测序(NGS)**:如Illumina、PacBio,通量高(百万级读长/次),成本低,但依赖复杂数据分析。
Do you think Sanger sequencing technology is still needed? Why?
桑格测序技术在生物学领域仍然具有不可替代的作用。尽管新一代测序技术(NGS)发展迅速,但桑格测序以其==高准确性和可靠性==,依然是许多研究中的“金标准”。其单次读长可达500 - 1000个碱基,能够精确测定短片段DNA序列,非常适合用于质粒、小基因片段以及关键基因区域的测序。例如,在基因克隆实验中,桑格测序可用于验证插入片段的正确性;在临床诊断中,它可用于检测特定基因的致病突变,如BRCA基因的突变检测。此外,桑格测序还可用于验证NGS结果的准确性,尤其是在关键位点或低频突变的验证中。对于小规模测序需求,桑格测序的成本效益也较高,无需像NGS那样需要大量样本分摊成本。因此,桑格测序在生物学研究和应用中仍不可或缺,特别是在对精度要求极高的场景中。
在新一代测序技术(NGS)出现之前,科学界主要通过一些传统的方法和技术来开展大规模(高通量)的研究项目。
1. 传统测序技术的组合应用
桑格测序技术是当时的主要测序手段。虽然其单次测序通量较低,但通过大规模的并行操作和自动化设备的应用,可以实现一定程度的高通量测序。具体来说,他们会先将基因组片段化,插入到载体(如**细菌人工染色体BAC**)中构建文库,然后对大量的克隆进行测序,最后通过生物信息学方法进行序列拼接和组装。
另外,还有一些基于物理或化学原理的辅助技术用于提高测序效率。例如,利用毛细管电泳技术来分离和检测桑格测序反应产物,相比传统的平板凝胶电泳,毛细管电泳可以实现更高的分辨率和更快的检测速度,从而加快测序进程。
2. 基因芯片技术
基因芯片是一种高通量的分子生物学技术。它通过将大量的已知DNA探针固定在芯片表面,然后将待测样本(如基因表达产物mRNA或基因组DNA片段)与芯片进行杂交。通过检测杂交信号的强度和位置,可以获取样本中基因的表达情况或基因组的某些特征。例如,在基因表达谱分析中,基因芯片可以同时检测成千上万个基因的表达水平,从而帮助研究人员了解细胞在不同生理或病理状态下的基因表达变化。在大规模的基因组研究中,基因芯片也被用于检测基因组的拷贝数变异等结构变化。
3.表达序列标签
EST是通过部分测序获得的cDNA序列片段。cDNA是由mRNA逆转录而来,因此EST反映了基因的转录产物,能够直接指示基因的表达情况。通过大规模测序cDNA文库中的随机克隆,可以获得大量的EST序列。EST技术在**基因发现、基因表达分析、基因功能预测和基因组注释**方面发挥了重要作用。
**4**. 大规模的克隆筛选和功能分析
在没有NGS技术之前,为了研究基因的功能,研究人员会构建大量的基因克隆文库。例如,通过构建cDNA文库来筛选和鉴定新的基因。他们会将细胞的mRNA逆转录成cDNA,然后插入到载体中构建文库。通过大规模的筛选,如酵母双杂交系统筛选蛋白质相互作用的基因,或者利用报告基因系统筛选具有特定功能的基因。这种方法虽然相对繁琐,但可以在一定程度上实现对基因功能的高通量研究。
这些传统的方法和技术虽然在效率和成本上不如NGS技术,但在当时为生命科学研究提供了重要的工具和手段,推动了生物学领域的发展。
第一代测序
读取长度可达1000bp,高精度;但是测序成本高,测序速度慢,吞吐量低;
第二代测序(NGS)

以下是三种测序技术的简要介绍:
**1. 焦磷酸测序(Pyrosequencing)**
**原理**:基于DNA合成过程中释放的焦磷酸(PPi),通过酶促反应将其转化为荧光信号。每次核苷酸掺入链中会触发一次发光,实时检测光信号以确定序列。
特点:
**长读长**:可测序约400-700 bp,适合分析重复区域。
**无需荧光标记**:直接检测化学反应发光。
**成本较高**:通量较低,试剂成本相对高。
**应用**:早期用于微生物基因组测序、宏基因组学及SNP检测(如454测序平台)。
**现状**:因通量低,逐渐被高通量技术取代。
**2. 合成测序(Sequencing-by-Synthesis, SBS)**
**原理**:利用DNA聚合酶在合成互补链时掺入荧光标记的dNTP,每次添加一个碱基即释放特定颜色荧光,通过成像记录序列。
特点:
**超高通量**:单次运行可测数十Gb数据(如Illumina NovaSeq)。
**短读长**:通常为50-300 bp,依赖双端测序弥补重复区域。
**低成本**:每Gb数据成本极低。
**应用**:全基因组测序、转录组分析、表观遗传学(甲基化)等大规模研究。
**现状**:目前市场主流技术(Illumina平台)。
**3. 连接法测序(Sequencing-by-Ligation, SBL)**
**原理**:通过DNA连接酶将荧光标记的寡核苷酸探针连接到模板DNA的特定位置,根据荧光信号确定连接的探针序列,逐步解码基因组。
特点:
**中等读长**:约20-35 bp,依赖循环连接步骤。
**高准确性**:通过双碱基编码减少误差。
**低通量**:成本较高,通量低于SBS。
**应用**:曾用于人类基因组计划(SOLiD平台),现多被SBS替代。
**现状**:已退出主流市场,主要用于特定研究场景。
对比总结
技术读长通量成本准确性典型应用**焦磷酸测序**长(~700 bp)低高高宏基因组、重复区域分析**合成测序**短(50-300 bp)极高极低高全基因组、转录组**连接法测序**中(20-35 bp)中中中曾用于全基因组注释
这些技术推动了测序成本的下降和通量的提升,目前合成测序(Illumina)占据主导地位,而长读长技术(如PacBio、Oxford Nanopore)正成为补充,解决复杂重复区域的测序难题。
总:相较于第一代桑格测序(Sanger Sequencing),其核心优势在于**通量高、成本低、自动化程度高**

第二代测序的核心思想是通过**大规模并行化**实现同时测定数百万至数十亿条DNA序列。其基本流程包括:
**DNA文库构建**
将待测DNA片段化,连接特定的接头(adapters),形成适配测序仪的文库。
文库片段通过固相载体(如微球、芯片表面)固定,便于后续扩增和测序。
**体外扩增**
**桥式扩增(Bridge Amplification)**(如Illumina):通过互补引物在固相表面反复延伸,形成密集的DNA簇(cluster)。
**乳液PCR(Emulsion PCR)**(如454、Ion Torrent):在油水乳液中实现单分子扩增,每个液滴内生成大量同一模板的拷贝。
**边合成边测序(SBS, Sequencing-by-Synthesis)**
通过化学方法逐个添加荧光标记的dNTP,每次仅允许一个碱基掺入,通过检测荧光信号确定序列。
根据不同平台,具体方法有所差异:
**Illumina**:可逆终止子(reversible terminator)技术,荧光标记的dNTP掺入后去除荧光基团和终止子,循环进行。
**454(Pyrosequencing)**:基于焦磷酸发光原理,通过检测释放的焦磷酸引发的化学发光信号。
**SOLiD(Sequencing by Oligo Ligation and Detection)**:基于寡核苷酸连接反应,通过荧光标记的连接探针检测碱基。
**数据采集与分析**
高分辨率成像系统捕获荧光信号或化学发光信号,转化为碱基序列(A/T/C/G)。
通过生物信息学工具进行序列拼接、比对、变异检测等分析。
NGS 应用

第三代测序(TGS)
1.单分子实时测序(SMRT)
**原理**
单分子实时测序(Single-molecule Real-time Sequencing,SMRT)是由PacBio公司开发的第三代测序技术。其核心原理是基于零模式波导(Zero-mode Waveguides,ZMW)技术和边合成边测序的方法。在测序过程中,DNA模板被固定在ZMW孔底部,4种不同荧光标记的脱氧核苷酸三磷酸(dNTP)通过布朗运动进入检测区域。当dNTP与模板碱基匹配并被DNA聚合酶催化形成化学键时,荧光标记被激活并发出信号,通过检测荧光信号的存在时间来区分匹配的碱基。
**应用**
SMRT测序具有超长读长(可达数千个碱基)、无需模板扩增、能直接检测表观修饰位点等优点。它在小型基因组的从头测序和完整组装中表现良好,尤其适用于需要高完整性和准确性的基因组研究。此外,SMRT测序还被应用于表观遗传学、转录组学和大型基因组组装等领域。
**2.纳米孔测序**
**原理**
纳米孔测序技术是一种基于电信号的单分子测序技术。其核心原理是利用纳米孔(通常由生物纳米孔蛋白构成)嵌入在人工合成的多聚物薄膜中,膜两侧浸没在电解质溶液中并施加电压差。当DNA或RNA分子在马达蛋白的牵引下以单链形式穿过纳米孔时,不同碱基会引起电流的不同变化,通过检测这些电流变化来推断碱基类型。
**应用**
纳米孔测序技术具有超长读长(可达数十万个碱基)、实时测序、无需PCR扩增等特点。它在基因组测序中表现出色,尤其适合复杂基因组的组装和结构变异的检测。此外,纳米孔测序还被应用于病原微生物鉴定、甲基化研究、转录组学分析等领域。
ch3
第二代测序和第三代测序原理有什么不同?

序列数据文件格式

核酸测序数据库
**NCBI (美国国家生物技术信息中心)**
GenBank:收集所有公开的核酸序列
SRA (Sequence Read Archive):存储原始测序数据
dbGaP:基因组和表型关联研究数据库
**ENA (欧洲核苷酸档案馆)**
欧洲的序列数据存储库,与GenBank和DDBJ形成国际核酸序列数据库合作
**DDBJ (日本DNA数据库)**
日本的核酸序列数据库
**UCSC Genome Browser**
提供基因组注释数据和可视化工具
**ENSEMBL**
提供基因组注释和比较基因组学资源
**TCGA (癌症基因组图谱)**
癌症相关的基因组变异和临床数据
**GTEx (基因型-组织表达)**
提供基因表达和基因调控数据
**1000 Genomes Project**
收集全球人类遗传变异数据
蛋白测序数据库
1.PIR
2.SWISS-PROT
3.TrEMBL
结构数据库

表达数据库

**特定分类群数据集合(Specific Taxa Data Collections)**
特定分类群数据集合是指围绕某一生物类群(如人类、小鼠、水稻、果蝇、细菌等)系统性收集的基因组、转录组、蛋白质组等数据资源。这类数据库通常提供注释完善的基因结构、功能信息和比较基因组学工具,支持特定物种的深度研究。

Ch4
序列比对
**Sequence alignment(序列比对)** 是生物信息学中的核心方法,指通过比较两个或多个生物序列(如DNA、RNA或蛋白质序列),找出它们的相似区域和差异,从而推断功能、进化关系或结构特征。
NGS 可能存在的问题

传统测序工具是否适用于现代测序技术?为什么?
**简略回答:**
现代测序数据(如NGS/TGS)因**数据量庞大、读长差异大(短读长/长读长)、错误率高**,传统比对工具存在以下局限:
**计算效率低**:传统算法(如BLAST)复杂度高,无法处理Tb级数据。
**短读长适配性差**:难以解析重复序列、结构变异(如长插入缺失)。
**高错误率容忍度不足**:对第三代测序(如Nanopore原始错误率15%)的纠错能力弱。
**缺乏复杂样本支持**:宏基因组、单细胞数据易出现噪声干扰或误比对。
**功能单一**:无法满足多组学整合(如RNA-seq与表观遗传联合分析)需求。
现代工具(如Minimap2、BWA-MEM)通过索引加速、容错算法等优化,更适合当前数据特性。
序列组装:De novo assembly(从头组装)apply on long reads
De novo assembly(从头组装)是指在不依赖参考基因组的情况下,将测序得到的短读长或长读长序列拼接成完整基因组或大片段序列的过程。
基本原理:
**输入**:高通量测序数据(如Illumina短读长、PacBio/Nanopore长读长)。
**目标**:通过序列重叠区域(overlap)将片段拼接成连续的Contig(连续片段)和Scaffold(支架)。
关键步骤:
**数据预处理**:去除低质量reads、接头序列。
**k-mer分析**:统计短序列的k-mer频率,构建哈希表辅助组装。
**Contig组装**:通过重叠组装(如de Bruijn图算法)生成初始Contig。
**Scaffold构建**:利用长读长或物理图谱连接Contig,填补间隙。
De Bruijn 图 ( 德 布 莱 英 图 )
**De Bruijn图(德布莱英图)** 是生物信息学中用于基因组组装的核心数据结构,尤其适用于处理高通量测序数据(如Illumina短读长)。以下是其核心要点:
**1. 基本概念**
**定义**:由荷兰数学家Nicolaas de Bruijn提出的图论模型,通过分解序列为固定长度的子序列(k-mer)构建有向图。
核心组成:
**节点(Node)**:代表k-1长度的子序列(如k=3时,节点为"ATG")。
**边(Edge)**:代表k长度的子序列(如边"ATG"表示从节点"AT"到"TG"的连接)。
**2. 构建过程**
**输入**:测序得到的短读长(如Illumina的150 bp reads)。
**k-mer分割**:将每个read拆分为所有可能的k-mer(如k=3时,read "ATGCCG"生成 "ATG", "TGC", "GCC", "CCG")。
图构建:
每个k-mer作为边,起始k-1 mer为起点,结束k-1 mer为终点。
例如,k-mer "ATG"对应边:节点 "AT" → 节点 "TG"。
图遍历与组装**
**目标**:寻找一条**欧拉路径**(经过每条边恰好一次的路径),还原原始序列。
关键步骤:
**纠错**:去除低频边(可能来自测序错误)。
**路径搜索**:通过贪心算法或启发式方法拼接连续边,形成Contig(连续片段)。
优势与挑战
**优势****挑战**高效处理海量短读长数据对测序错误敏感(错误k-mer干扰路径)自动解析重复序列复杂图结构可能导致分支(需解决歧义)内存优化(稀疏图存储)需权衡k-mer长度(k过小导致节点过多,k过大丢失信息)
**5. 实际应用工具**
**SPAdes**:结合多k值策略,优化重复序列和低覆盖度区域组装。
**Velvet**:早期经典工具,通过合并气泡(bubbles)解决图分支。
**MEGAHIT**:针对宏基因组数据,内存高效,适合超大数据量。
**6. 示例**
**输入read**:`ATGCCG`(k=3)
**生成的边**:
`ATG`(AT → TG)、`TGC`(TG → GC)、`GCC`(GC → CC)、`CCG`(CC → CG)
**组装路径**:`ATG` → `TGC` → `GCC` → `CCG` → 原始序列 `ATGCCG`。
对比其他组装方法
**方法****原理****适用场景****De Bruijn图**k-mer分割+图遍历短读长(如Illumina)**OLC(重叠布局)**基于read间的重叠区域拼接长读长(如PacBio/Nanopore)
总结
**De Bruijn图**通过将测序数据转化为图结构,高效解决短读长数据的组装问题,是现代基因组组装(如人类基因组、宏基因组)的基石。其核心在于平衡k-mer长度、纠错能力和计算效率,工具如SPAdes和MEGAHIT通过优化图遍历策略显著提升了组装质量。
ch5
Overlap graph
Overlap Layout Consensus (use on long reads)
**Overlap Graph(重叠图)** 是基因组组装中另一种核心数据结构,尤其适用于处理**长读长测序数据**(如PacBio、Oxford Nanopore)。通过识别不同测序片段(reads)之间的**重叠区域**(overlap)构建有向图,节点代表reads,边表示重叠关系。与De Bruijn图不同,它直接基于序列间的重叠关系构建图模型,更直观地反映序列的连续性。
你认为在从头组装之前预处理是必要的吗?
是的,预处理是基因组从头组装(de novo assembly)中不可或缺的关键步骤。原始测序数据通常包含噪声、低质量序列和冗余信息,未经处理的直接组装可能导致以下问题:
**组装质量下降**:低质量reads或接头污染会引入错误,破坏Contig的连续性。
**计算资源浪费**:冗余数据会增加图结构的复杂度,降低组装效率。
**假阳性/假阴性风险**:噪声可能误导重叠区域识别,导致结构变异误判或关键基因遗漏。
Transcriptomics 转录组学


DNA Microarray 微阵列
1.是一种高通量分子生物学技术,通过固定化的DNA探针与样本核酸杂交,检测基因表达水平或基因多态性。**逐渐被RNA-seq替代**:因后者通量更高、灵敏度更好。
2.**核心应用**:
基因表达分析
比较不同组织、疾病状态(如癌 vs. 正常)的基因表达差异。
示例:发现乳腺癌中HER2基因的过表达。
单核苷酸多态性(SNP)检测
通过探针杂交识别基因组中的SNP位点(如GWAS研究)。
基因分型
检测病原体亚型(如HPV分型)或遗传疾病相关突变。
甲基化分析
结合亚硫酸盐处理,检测DNA甲基化状态(如肿瘤表观遗传变化)。

ch6
为什么微阵列芯片在基因组学研究中用得越来越少了?
微阵列芯片使用减少主要因以下原因:
**技术局限**:灵敏度低、依赖已知序列、动态范围窄,无法检测低丰度转录本或新基因。
**测序技术崛起**:RNA-seq成本下降,可全面解析转录组(如可变剪接、单细胞分析),分辨率更高。
**应用需求升级**:研究转向复杂场景(如单细胞、空间组学),需测序技术支持。
**成本效益**:RNA-seq规模效应显著,适合从少量到大队列研究,隐性成本更低。
**数据分析简化**:现代工具降低RNA-seq分析门槛,微阵列的标准化优势减弱。
例外场景:临床快速检测(如HPV分型)或降解样本分析仍保留微阵列价值。
RNA sequencing 测序

什么是全转录组测序?
**全转录组测序(RNA-seq)** 是通过高通量测序技术全面分析细胞或组织中所有RNA(包括mRNA、lncRNA、miRNA等)的组成和表达水平的方法。其核心目标是:
**全面性**:捕获所有RNA类型,揭示基因表达全貌。
**高分辨率**:检测低丰度RNA(如lncRNA)和可变剪接事件。
**功能关联**:解析RNA表达与疾病、发育等生物学过程的联系。
微矩阵和全转录测序

ch7 学生汇报 PPT
Population Genomics 种群基因组学是一门通过大规模基因组数据分析来调查种群内部和种群之间的遗传变异的学科,旨在阐明进化力量(如自然选择、遗传漂移和基因流动)如何塑造基因组多样性。其核心是,它采用全基因组变异检测来区分基因座特异性效应和全基因组效应,从而对微进化机制和种群历史提供更深入的见解。
Comparative genomics比较基因组学是一个深入研究基因、蛋白质和非编码区域的进化关系、结构构成和功能方面的科学领域。它通过检查单个生物体内和不同物种中发现的信息来实现这一目标。
Metagenomics元基因组学是一种基因组学研究方法,用于研究环境样本中所有微生物的基因组信息,包括细菌、真菌、病毒、古菌等。
Evolutionary genomics
ch8
Genome
基因组中突出的部分主要包括?
**编码基因(CDS)**:直接编码蛋白质的功能区域(如外显子)。
**调控元件**:启动子、增强子、沉默子等,控制基因表达。
**重复序列**:如转座子、卫星DNA,影响基因组稳定性和进化。
**非编码RNA区域**:如miRNA、lncRNA基因,tRNAs, ribosomal RNA (rRNA),microRNAs (miRNAs),small interfering RNAs (siRNAs) - regulate transcriptionpiwi-interacting RNA (piRNAs),参与表观调控和基因表达。
**结构变异区**:如拷贝数变异(CNV)、倒位/易位,关联疾病与适应性。
基因复制
Ks:同义【DNA 序列变化不改变 DNA 编码的蛋白质氨基酸序列】替换位点替换次数;
Ka:非同义【DNA 序列变化改变了DNA 编码的蛋白质氨基酸序列】替换位点替换次数;
Ka/Ks 比值:复制后选择性压力和漂移在基因差异中的作用。
Ka/Ks=1 中性进化,无声突变和替代突变的内容几乎相同;
Ka/Ks ≫1 正选择,意味着选择压力有效,替代是有利的;
Ka/Ks ≪1 纯化选择,净化选择是自然保持物种“统一”的方式,通过去除有害的基因变化这有助于确保只有不负面影响生存或繁殖的特征被传递下去,保持物种遗传的“统一”一致和功能
多倍体的优势?
**多倍体的优势主要包括:**
**遗传稳定性增强**:多倍体(如四倍体)在减数分裂时,同源染色体配对更灵活,减少不育风险(如小麦四倍体比二倍体更稳定)。
**杂种优势(异源多倍体)**:不同物种杂交形成的多倍体(如普通小麦)可结合双亲优良性状(抗病性、高产等)。
**环境适应性提升**:额外基因拷贝增强抗逆性(如盐碱地生长的多倍体水稻)。
**性状改良**:器官增大:多倍体植物果实、种子更大(如四倍体葡萄更饱满);产量提高:细胞体积增大,生物量增加(如多倍体棉花纤维更长)。
**进化潜力**:提供更多遗传变异,加速适应新环境或抵御病虫害。
ch9
需要一个组装和注释过的基因组吗?
**必须组装和注释**:新物种研究、精细功能分析、结构变异检测。
**可不严格处理**:已知参考基因组物种、靶向测序、简单验证实验。
关键权衡:
**数据深度**:低覆盖度数据可能无法支撑高质量组装。
**成本**:组装和注释耗时且计算资源密集,需与研究目标匹配。
构建基因组
什么是系统生物学?
**系统生物学(Systems Biology)简答题回答:**
**定义**:
整合生物学、数学、计算机科学,研究生物系统(如细胞、个体)中基因、蛋白质、代谢通路等组分的相互作用及整体行为。
**核心特点**:
**整体性**:关注系统整体功能,而非单一组分。
**多组学整合**:结合基因组、转录组、蛋白质组等多层次数据。
**动态与定量**:分析时间/空间动态变化,建立数学模型。
**网络为中心**:用网络图描述生物分子互作(如蛋白质互作网络)。
**主要方法**:
数据整合(多组学数据库构建)。
网络分析(识别枢纽基因、子模块)。
数学建模(微分方程、机器学习模拟动态)。
实验验证(CRISPR、单细胞测序)。
**应用领域**:
**疾病机制**:解析癌症信号通路网络。
**药物开发**:预测药物多靶点效应。
**合成生物学**:设计人工生物系统(如工程菌产药)。
**精准医学**:基于患者特异性系统特征制定治疗方案。
**挑战与前景**:
**挑战**:数据高维度、噪声多;模型构建与实验验证闭环难。
**前景**:AI加速建模;跨学科合作(生物学家+数据科学家)。
**总结**:系统生物学通过整合多尺度数据与动态建模,揭示生命系统的涌现特性,推动疾病研究、药物开发及合成生物学发展。