- 软件下载
conda create -n hifiasm -y
codna activate hifiasm
conda install hifiasm -y
conda install purge_haplotigs -y
onda install -c bioconda bwa -y
conda install samblaster -y
conda install quast -y
git clone https://github.com/zengxiaofei/HapHiC.git
#conda安装haphic的依赖
conda env create -f HapHiC/conda_env/environment_py310.yml
conda env update --file environment_py310.yml
根据yml文件,更新当前环境下的软件;#最后似乎只安装了pip部分内容
sudo apt-get update
sudo apt-get install libgomp1- 把 BAM/CRAM 格式的比对或原始读段文件,转成 FASTQ 格,然后压缩成fq.gz格式
- 这里因为拿到的一部分数据是bam文件,所以要转换一下
samtools fastq -@ 10 m84128_250707_092804_s4.hifi_reads.bc2035.bam | gzip > m84128_s4.fq.gz
nohup samtools fastq -@ 10 m84288_250701_093750_s1.hifi_reads.bc2035.bam | gzip > m84288_s1.fq.gz &- hifiasm组装
- o:输出文件的前缀名
- hom-cov(可选):
- 估计单倍型覆盖度(homozygous coverage)
- Hifiasm 用它来区分 单倍区 和 杂合区,帮助分相
- 通常根据 HiFi reads 的平均深度 估算
- h1:Hi-C 数据第一条链(R1),用于辅助组装,提高染色体级组装准确性
- h2:Hi-C 数据第2条链(R2)
- u1:额外未分相的长读数据(ONT reads),用于增强组装连续性
- KNX.CCS.FQ:主要的 PacBio HiFi reads,Hifiasm 的核心组装输入
- 输出重定向
- 把标准输出写入 knv_ASM_THIRD.LOG
- 2>&1:把标准错误也重定向到同一个日志文件
- 整个组装过程的所有信息都会保存到 knv_ASM_THIRD.LOG,方便检查
nohup hifiasm -o pulchrum_asm_third -t 40 \
--h1 R.pulchrum_planch_Z429-H10-1_good_1.fq.gz \
--h2 R.pulchrum_planch_Z429-H10-1_good_2.fq.gz \
leaf8.ccs.fasta.gz \
m84128_s4.fq.gz \
m84288_s1.fq.gz \
> pulchrum_asm_third.log 2>&1 &- quast评估基因组质量
- 命令行
nohup quast \
pulchrum_asm_third.hic.hap1.p_ctg.fa \
pulchrum_asm_third.hic.hap2.p_ctg.fa \
pulchrum_asm_third.hic.p_ctg.fa \
pulchrum_asm_third.hic.p_utg.fa \
-o quast -m 0 -t 30 &- 评估表内容;记录了一些序列长度、数量还有N50等常见的组装结果信息
- BUSCO评估(看基因组组装完整性)
- 需要评估的三个文件(初步组装的结果)
pulchrum_asm_third.hic.p_ctg.fa
pulchrum_asm_third.hic.hap2.p_ctg.fa
pulchrum_asm_third.hic.hap1.p_ctg.fa
- 参数
- m,基因组模式
- offline,不从官网上下载数据库
- augustus,用augustus来预测基因,应该通过基因组自身结构来预测基因,弥补这部分基因的缺少,提升完整性的评估结果的准确性
- f,运行结束后生成一个html报告
- 评估命令行
nohup busco -i pulchrum_asm_third.hic.hap1.p_ctg.fa \
-c 20 \
-m geno \
--out pulchrum_hap1 \
-l /home/server/database/busco_database/embryophyta_odb12 \
--offline \
-f &- 绘图命令行
busco --plot_percentages --plot busco- busco结果