不用切分染色体,可以使用basenumber生成GVCF文件。
对原始数据可以使用bwa-mem2比对生成bam文件,这一步比较花时间,我自己使用的是bwa-mem2这个软件。如果使用basenumber是需要拆分染色体的。
之后使用samtools进行排序,gatk进行标记重复,生成标记重复后的bam文件,用来生成gvcf文件。

完成以上这几步都是用92服务器运行的。
接下来使用basenumber软件,需要用到93服务器。
首先,需要使用basenumber软件生成基因组的索引文件。
/data2/93chuand/.bin/baseNumber/slaidx Tgradis.fa接着就开始生成GVCF文件
/data2/93chuand/.bin/baseNumber/slcx G10401-15X.sort.markdup.bam \
-e GVcF \
--keep-split \
--minimum-mapping-quality 30 \
-R /data2/hangtingting/147_Tg_reseq/Tgradis.fa \
-o /data2/hangtingting/147_Tg_reseq/BC2025090791-BGI-DNA-21samples/G10401-15X.g.vcf.gz \
--vcf-index速度比使用gatk快很多。这个15x的样本运行了约12个小时。
而我使用gatk生成GVCF文件,2周多了,chr1gvcf还没跑完。
我认为,以后在我们服务器不加显存的情况下,可以将前期的数据先运行完毕,然后使用basenumber生成GVCF文件,比较方便,流量也消耗不了太多,并且时间也大大缩短。
个人认为basenumber还是很重要的。