General discussion | Zhang Lab Forum

Description

侃大山，随便聊聊。有啥新奇特的Idea都可以分享。

By wuzhenzhen, 28 April, 2026

SNP过滤：提取“假定”独立的SNP

Forums

General discussion

0 背景

在SNP过滤：连锁不平衡LD

By wuzhenzhen, 28 April, 2026

SNP过滤：（补充）多核苷酸多态性、覆盖深度、TE区域和杂合度的过滤

Forums

General discussion

0 背景：

除了前面笔记所记录的SNP过滤条件外，在张仁纲的毕业论文里发现还有多核苷酸多态性、覆盖深度、TE区域和杂合度这条件需要进行过滤。

前面的过滤笔记链家：

By fanbingbing, 31 March, 2026

香榧MYBS2基因的探讨

Forums

General discussion

By fanbingbing, 31 March, 2026

有关调控香榧生长的相关论文学习

Forums

General discussion

（一)蔗糖通过TgNGA1-TgWRKY47-TgEXPA2模块参与调控香榧球果膨大

By wuzhenzhen, 31 March, 2026

SNP过滤：（3）次等位基因频率MAF

Forums

General discussion

1 背景

By wuzhenzhen, 31 March, 2026

SNP过滤：连锁不平衡LD

Forums

General discussion

1 背景

进行群体遗传结构分析时，如果位点之间有强连锁的关系则会影响分析的结果，因此需要过滤掉互相之间连锁不平衡的SNP。

2 具体步骤

（1）软件安装

By wuzhenzhen, 31 March, 2026

SNP过滤：（2）基因型的质量GQ和缺失率missing

Forums

General discussion

1 背景

（1）基因型的质量GQ

除了考虑位点的质量之外，还要考虑每个个体在这个位点上的基因型，只保留基因型上GQ值大于20，大于5条reads覆盖的基因型，否则设为miss即 ./.。

- 位点深度过滤：保留总测序深度（DP）≥5的变异位点（过滤掉深度<5的低可信位点）。注：DP是VCF中INFO列的字段，代表该位点的总测序深度（所有样本的总和）。
- 基因型质量过滤：将基因型质量（GQ）<20的样本基因型标记为缺失（./.）（VCF中表示缺失基因型的符号）。注：GQ是样本水平的字段（FORMAT列），代表该样本基因型的置信度（值越高越可信）。

（2）缺失率missing

在基因组变异分析（尤其是 GWAS、群体遗传学研究）中，过滤缺失率（Missing Rate）>10% 的 SNP 是行业通用的核心质控步骤。

缺失率 > 10%，说明这个位点在测序 / 基因分型中稳定性极差：可能是测序覆盖度不足、探针设计缺陷、序列重复区域、Indel 干扰、比对错误等技术问题导致的「假缺失」。

这类位点的基因型调用（Genotype Calling）准确性极低，大量假阳性 SNP 会混入数据，直接污染后续分析。

By wuzhenzhen, 31 March, 2026

SNP过滤：（1）indel邻近区域的SNP和10bp范围内的SNP cluster

Forums

General discussion

1 背景

在生成VCF文件后，需要对生成的SNP进行过滤，再进行后续的种群分析。

By shenyijun, 31 March, 2026

从零开始的基因组注释人工校正，本地IGV-GSAman操作篇

Forums

General discussion

【金山文档 | WPS云文档】从零开始的基因组注释人工校正，本地IGV-GSAman操作篇
https://www.kdocs.cn/l/clojyKDpifTe

By shenyijun, 31 March, 2026

从零开始的基因组注释人工校正，服务器文件准备篇

Forums

General discussion

【金山文档 | WPS云文档】从零开始的基因组注释人工校正，服务器文件准备篇
https://www.kdocs.cn/l/cbBdvoqUKbfe

General discussion