Description

工作流程发布,不足交流探讨及改进

By Tingting, 25 December, 2025
Forums

一、第二次比对后使用gatk对文件进行预处理

java -jar /bin/picard.jar AddOrReplaceReadGroups \
I=sampleAligned.out.sam \
O=sample_rg_added_sorted.bam \
SO=coordinate \
RGID=ERR188044 \
RGLB=rna \
RGPL=BGI \ #测序平台
RGPU=MGISEQT7_F003_L005 \ #根据实际修改
RGSM=sample

二、建立索引后标记重复

samtools index -c sample_rg_added_sorted.bam
java -jar /bin/picard.jar MarkDuplicates \
I=sample_rg_added_sorted.bam\
O=sample_dedup.bam \
VALIDATION_STRINGENCY=SILENT \
M=sample_dedup.metrics

三、建立索引后去除内含子

By Tingting, 25 December, 2025
Forums

一、比对后对bam文件进行排序

samtools sort -o sample_sorted.bam sample.bam

二、排序后利用gatk建立索引、标记重复

#建立基因组索引
gatk CreateSequenceDictionary -R Tgradis.fa -O Tgradis.dict
#标记样本重复
gatk MarkDuplicates -I sample_sorted.bam -O sample.sort.markdup.bam -M sample.sort.markdup_metrics.txt

三、对标记重复的文件建立索引,为后续声测会给你gvcf文件做准备

samtools index -c sample.sort.markdup.bam

四、生成gvcf文件