【金山文档】 k-mer分析
https://kdocs.cn/l/clXCzw0rQO4v
- 基本原理
对于高等真核生物(特别是高等植物)来讲,它们的基因组一般比较复杂,通常伴随着较高的杂合度或者重复序列等,进行基因组De novo也并非一件容易的事情。特别是进行高精细基因组图谱的构建时,只基于常规DNA文库的二代测序根本无法满足需要,还需结合三代测序、BioNano、Hi-C数据等才可获得高质量的基因组。
相对而言,这时的测序成本也会是相当大的一笔开销,需要谨慎对待。因此在对高等真核生物进行全基因组De novo之前,我们需要设法提前获知该物种基因组特征的一些信息,为后续的测序方案、基因组组装方案、基因组结构注释等提供参考依据。
这种情况下,我们一般会在基因组大规模测序或者正式组装之前,首先构建DNA小片段文库进行中低深度的二代测序,使用PE文库测序所得的reads信息进行基因组Survey分析以初步评估基因组特征。基因组Survey分析的核心内容即为k-mer分析,使用k-mer分析可直接在相对较小数据量的二代测序reads水平上进行,对该物种基因组大小、GC含量、杂合度高低以及重复序列比例等进行评估。
- 基本流程
- 测序数据过滤
- 获取k-mer频数表
- jellyfish:jellyfish的安装和使用(转载)
k-mer计数
zcat *fq.gz | jellyfish count /dev/fd/0 -m 17 -s 1000M -t 30 -C -c 7 -o sample.jf
zcat *fq.gz | jellyfish count /dev/fd/0 #序列压缩文件的输入形式
-m 17 #设定k-mer长度
-s 1000M #存储用hash表大小
-t 30 #线程
-C #双端测序reads添加
-o sample.jf #输出文件
-c 7 #k-mer的计数结果所占的最大比特数
统计k-mer频率
jellyfish histo -t 30 sample.jf > sample.histo
- GCE:k-mer分析及基因组特征评估软件GCE
- kmergenie:k-mer分析及基因组大小评估工具KmerGenie
- 绘制k-mer分布图
- genomescope2网页端口:GenomeScope (cshl.edu)
- genomescope2本地(conda,r-base环境)
- kmergenie(r-base环境):github - 用k-mer分析进行基因组调查:(六)用KmerGenie一步实现 - 个人文章 - SegmentFault 思否
- genoscope2
- 左图为通过genomescope制作的k-mer分布图,右图为genomescope2的网页端数据上传页面,将jellyfish或者其他软件
命令示例
nohup genomescope2 -i sample.histo -k 21 -p 4 -m 100000 -o /home/01 &
-i histogram_file:频数分布直方表,jellyfish或KMC的结果。
-k k-mer_length:k-mer长度,通常是17,21,与jellyfish/KMC的设置一致。
-o output_dir:输出目录,结果图和文本都输出到这个目录。
-p ploidy:设置倍性。
- 用k-mer分析进行基因组调查:(四)用GenomeScope评估基因组特征+用Smudgeplot估计倍性 - 知乎
- 在理想状态下,K-mer曲线服从泊松分布,即只会出现一个明显的主峰。
- 对于某些物种来讲,它们的基因组可能高度杂合,或者具有较高的重复序列比例。因此,其k-mer曲线往往不会呈现出良好的泊松分布。
- 由于一定杂合度,会导致在主峰对应的横坐标的二分之一处出现杂合峰.
- 一定的重复度,则会在主峰对应的横坐标的整数倍处出现重复峰
- 蓝色区域是实际观测到的kmer分布。
- 红色线条下方是一些频数很低的kmer, 这些kmer被认为是测序错误。
- 黑色线条下方被认为是可靠的kmer数据,只拿这部分数据来评估基因组的大小。
- 垂直的虚线认为是kmer的几个峰值。
- 黄色线条下方的区域认为是非重复区域的大小。
- kmergenie
- KmerGenie可以在多个预指定的k-mer长度下同步分析,除了进行常规的k-mer频数统计之外,还能够基于不同k-mer自动计算基因组大小,并为基因组组装评估一个最佳组装k-mer数值作为备选。
- 上图(上)为二倍体运行模式下的k-mer曲线,红色曲线为观测到的k-mer曲线;蓝色曲线为杂合的k-mer曲线;绿色曲线为纯合的k-mer曲线。上图(下)为单倍体运行模式下单k-mer曲线形状,常规单曲线展示方式。kmergenie可以一次性基于不同k-mer取值生成对应的直方图。(KmerGenie软件默认将k-mer频数曲线的纵坐标进行了log10转化,视觉效果上与genomescope等软件制成的图在视觉上存在差异)
- 另外,在输出报告中包括如上的折线图,图中KmerGenie评估出了一个“最佳k-mer”,即红色虚线所在的k-mer横坐标,该k-mer下评估基因组最大,为后续使用测序数据进行基因组正式组装时所选的k-mer取值提供了参考。
- 其他分析软件
- GCE:k-mer分析及基因组特征评估软件GCE
- KMC
- KAT