Description
工作流程发布,不足交流探讨及改进
工作流程发布,不足交流探讨及改进
【金山文档 | WPS云文档】 潘母岗数据更新 https://www.kdocs.cn/l/cjKBPhOm8KbP
一、第二次比对后使用gatk对文件进行预处理
java -jar /bin/picard.jar AddOrReplaceReadGroups \
I=sampleAligned.out.sam \
O=sample_rg_added_sorted.bam \
SO=coordinate \
RGID=ERR188044 \
RGLB=rna \
RGPL=BGI \ #测序平台
RGPU=MGISEQT7_F003_L005 \ #根据实际修改
RGSM=sample二、建立索引后标记重复
samtools index -c sample_rg_added_sorted.bam
java -jar /bin/picard.jar MarkDuplicates \
I=sample_rg_added_sorted.bam\
O=sample_dedup.bam \
VALIDATION_STRINGENCY=SILENT \
M=sample_dedup.metrics三、建立索引后去除内含子
一、比对后对bam文件进行排序
samtools sort -o sample_sorted.bam sample.bam二、排序后利用gatk建立索引、标记重复
#建立基因组索引
gatk CreateSequenceDictionary -R Tgradis.fa -O Tgradis.dict
#标记样本重复
gatk MarkDuplicates -I sample_sorted.bam -O sample.sort.markdup.bam -M sample.sort.markdup_metrics.txt三、对标记重复的文件建立索引,为后续声测会给你gvcf文件做准备
samtools index -c sample.sort.markdup.bam四、生成gvcf文件