By Tingting, 10 January, 2026
Forums

不用切分染色体,可以使用basenumber生成GVCF文件。

对原始数据可以使用bwa-mem2比对生成bam文件,这一步比较花时间,我自己使用的是bwa-mem2这个软件。如果使用basenumber是需要拆分染色体的。

之后使用samtools进行排序,gatk进行标记重复,生成标记重复后的bam文件,用来生成gvcf文件。

完成以上这几步都是用92服务器运行的。

接下来使用basenumber软件,需要用到93服务器。

首先,需要使用basenumber软件生成基因组的索引文件。

/data2/93chuand/.bin/baseNumber/slaidx Tgradis.fa

接着就开始生成GVCF文件

/data2/93chuand/.bin/baseNumber/slcx G10401-15X.sort.markdup.bam \
  -e GVcF \
  --keep-split \
  --minimum-mapping-quality 30 \
  -R /data2/hangtingting/147_Tg_reseq/Tgradis.fa \
  -o /data2/hangtingting/147_Tg_reseq/BC2025090791-BGI-DNA-21samples/G10401-15X.g.vcf.gz \
  --vcf-index

速度比使用gatk快很多。这个15x的样本运行了约12个小时。

而我使用gatk生成GVCF文件,2周多了,chr1gvcf还没跑完。

我认为,以后在我们服务器不加显存的情况下,可以将前期的数据先运行完毕,然后使用basenumber生成GVCF文件,比较方便,流量也消耗不了太多,并且时间也大大缩短。

个人认为basenumber还是很重要的。