By Tingting, 25 December, 2025
Forums

一、比对后对bam文件进行排序

samtools sort -o sample_sorted.bam sample.bam

二、排序后利用gatk建立索引、标记重复

#建立基因组索引
gatk CreateSequenceDictionary -R Tgradis.fa -O Tgradis.dict
#标记样本重复
gatk MarkDuplicates -I sample_sorted.bam -O sample.sort.markdup.bam -M sample.sort.markdup_metrics.txt

三、对标记重复的文件建立索引,为后续声测会给你gvcf文件做准备

samtools index -c sample.sort.markdup.bam

四、生成gvcf文件

gatk --java-options "-Xmx24g" HaplotypeCaller -R /home/Tg_genome/Tgradis.fa -I sample.sort.markdup.bam -ERC GVCF -L /home/147_Tg_reseq/BC2025090791-BGI-DNA-21samples/rawdata/chr.list -O sample.g.vcf.gz  --create-output-variant-index false  --disable-bam-index-caching 
#--create-output-variant-index false 添加参数,不用生成索引,不然会报错。