一、第二次比对后使用gatk对文件进行预处理
java -jar /bin/picard.jar AddOrReplaceReadGroups \
I=sampleAligned.out.sam \
O=sample_rg_added_sorted.bam \
SO=coordinate \
RGID=ERR188044 \
RGLB=rna \
RGPL=BGI \ #测序平台
RGPU=MGISEQT7_F003_L005 \ #根据实际修改
RGSM=sample二、建立索引后标记重复
samtools index -c sample_rg_added_sorted.bam
java -jar /bin/picard.jar MarkDuplicates \
I=sample_rg_added_sorted.bam\
O=sample_dedup.bam \
VALIDATION_STRINGENCY=SILENT \
M=sample_dedup.metrics三、建立索引后去除内含子
samtools index -c sample_dedup.bam
gatk SplitNCigarReads \
-R /home/Tg_genome/Tgradis.fa \
-I sample_dedup.bam \
-O sample_split.bam \
--create-output-bam-index false四、建立索引后生成gvcf文件
samtools index -c sample_split.bam
gatk HaplotypeCaller \
--native-pair-hmm-threads 10 \
-R /home/Tg_genome/Tgradis.fa \
-I sample_split.bam \
--minimum-mapping-quality 30 \
-ERC GVCF \
-O sample.g.vcf