Description
侃大山,随便聊聊。有啥新奇特的Idea都可以分享。
侃大山,随便聊聊。有啥新奇特的Idea都可以分享。
A USER ERROR has occurred: An index is required but was not found for file drivingVariantFile:/home/Raw_data_20250821/Rmolle_callsnp_work/Rmolle_all_results/8snp_index_filter/SNP.raw.chr14.401.vcf.gz. Support for unindexed block-compressed files has been temporarily disabled. Try running IndexFeatureFile on the input.如果不生效或者没有索引文件,则按照以下步骤重新生成:
下载gffread:将gff文件转化为gtf文件
# 版本为为gffread v0.12.8
git clone https://github.com/gpertea/gffread
cd gffread
make release将gff文件转换为gtf文件
# gff转换为gtf
gffread Rmolle_genomic_GCA_025413875.1.gff -T -o Rmolle.gtf将gtf文件转成refGene格式
1. 首先,生成vcf列表文件:
ls INDEL.raw.chr*.vcf.gz > INDEX_raw_all_vcf.list
ls SNP.raw.chr*.vcf.gz > SNP_raw_all_vcf.list
# 如果有叶绿体等染色体,手动删除2. 使用gatk合并vcf文件
gatk \
--java-options "-Xmx10g -Djava.io.tmpdir=./tmp" \
MergeVcfs \
-I raw_vcf.list \
-O all.merge_raw.vcfgatk官网在2025年更新了Hard Filter的标准,选择最新的标准进行筛选:
分染色体合并:
# HaplotypeCaller最多可以设置4个线程,由于Java限制再增加也没有用
gatk --java-options "-Xmx10g -XX:ParallelGCThreads=4" HaplotypeCaller -R genome.fasta -I sample1.pe.sort.markdup.bam -ERC GVCF -O sample1.g.vcf.gz
具体的报错信息:
在利用bwa mapping获得bam文件后,可以利用samtools对比对的结果进行统计。
# 统计每个样本的整体比对率(primary mapped)和双末端比对(properly paired)
samtools flagstat sample.bam
# 统计每个样本的覆盖情况(coverage)和平均测序深度(meandepth)
samtools coverage sample.bam
# 但要注意的是 coverage 参数在低版本的里面是没有的(如1.6),需要使用较新的版本的samtools,如1.21。