By Tingting, 25 December, 2025
Forums

一、第二次比对后使用gatk对文件进行预处理

java -jar /bin/picard.jar AddOrReplaceReadGroups \
I=sampleAligned.out.sam \
O=sample_rg_added_sorted.bam \
SO=coordinate \
RGID=ERR188044 \
RGLB=rna \
RGPL=BGI \ #测序平台
RGPU=MGISEQT7_F003_L005 \ #根据实际修改
RGSM=sample

二、建立索引后标记重复

samtools index -c sample_rg_added_sorted.bam
java -jar /bin/picard.jar MarkDuplicates \
I=sample_rg_added_sorted.bam\
O=sample_dedup.bam \
VALIDATION_STRINGENCY=SILENT \
M=sample_dedup.metrics

三、建立索引后去除内含子

samtools index -c sample_dedup.bam
gatk SplitNCigarReads \
  -R /home/Tg_genome/Tgradis.fa \
  -I sample_dedup.bam \
  -O sample_split.bam \
  --create-output-bam-index false

四、建立索引后生成gvcf文件

samtools index -c sample_split.bam
gatk HaplotypeCaller \
--native-pair-hmm-threads 10 \
-R /home/Tg_genome/Tgradis.fa \
-I sample_split.bam \
--minimum-mapping-quality 30 \
-ERC GVCF \
-O sample.g.vcf