By liyupeng, 31 January, 2026
Forums

杜鹃基因组组装(1)

  1. 软件下载
conda create -n hifiasm -y
codna activate hifiasm
conda install hifiasm -y

conda install purge_haplotigs -y
onda install -c bioconda bwa -y
conda install samblaster -y
conda install quast -y 

git clone https://github.com/zengxiaofei/HapHiC.git 
#conda安装haphic的依赖
conda env create -f HapHiC/conda_env/environment_py310.yml 

conda env update --file environment_py310.yml
根据yml文件,更新当前环境下的软件;#最后似乎只安装了pip部分内容

sudo apt-get update
sudo apt-get install libgomp1
  1. 把 BAM/CRAM 格式的比对或原始读段文件,转成 FASTQ 格,然后压缩成fq.gz格式
    1. 这里因为拿到的一部分数据是bam文件,所以要转换一下
samtools fastq -@ 10 m84128_250707_092804_s4.hifi_reads.bc2035.bam | gzip > m84128_s4.fq.gz

nohup samtools fastq -@ 10 m84288_250701_093750_s1.hifi_reads.bc2035.bam | gzip > m84288_s1.fq.gz &
  1. hifiasm组装
    1. o:输出文件的前缀名
    2. hom-cov(可选):
      1. 估计单倍型覆盖度(homozygous coverage)
      2. Hifiasm 用它来区分 单倍区杂合区,帮助分相
      3. 通常根据 HiFi reads 的平均深度 估算
    3. h1:Hi-C 数据第一条链(R1),用于辅助组装,提高染色体级组装准确性
    4. h2:Hi-C 数据第2条链(R2)
    5. u1:额外未分相的长读数据(ONT reads),用于增强组装连续性
    6. KNX.CCS.FQ:主要的 PacBio HiFi reads,Hifiasm 的核心组装输入
    7. 输出重定向
      1. 把标准输出写入 knv_ASM_THIRD.LOG
      2. 2>&1:把标准错误也重定向到同一个日志文件
      3. 整个组装过程的所有信息都会保存到 knv_ASM_THIRD.LOG,方便检查
nohup hifiasm -o pulchrum_asm_third -t 40 \
  --h1 R.pulchrum_planch_Z429-H10-1_good_1.fq.gz \
  --h2 R.pulchrum_planch_Z429-H10-1_good_2.fq.gz \
  leaf8.ccs.fasta.gz \
  m84128_s4.fq.gz \
  m84288_s1.fq.gz \
  > pulchrum_asm_third.log 2>&1 &
  1. quast评估基因组质量
    1. 命令行
nohup quast \
    pulchrum_asm_third.hic.hap1.p_ctg.fa \
    pulchrum_asm_third.hic.hap2.p_ctg.fa \
    pulchrum_asm_third.hic.p_ctg.fa \
    pulchrum_asm_third.hic.p_utg.fa \
    -o quast -m 0 -t 30 &
  1. 评估表内容;记录了一些序列长度、数量还有N50等常见的组装结果信息

  1. BUSCO评估(看基因组组装完整性)
    1. 需要评估的三个文件(初步组装的结果)

pulchrum_asm_third.hic.p_ctg.fa

pulchrum_asm_third.hic.hap2.p_ctg.fa

pulchrum_asm_third.hic.hap1.p_ctg.fa

  1. 参数
    1. m,基因组模式
    2. offline,不从官网上下载数据库
    3. augustus,用augustus来预测基因,应该通过基因组自身结构来预测基因,弥补这部分基因的缺少,提升完整性的评估结果的准确性
    4. f,运行结束后生成一个html报告
  2. 评估命令行
nohup busco -i pulchrum_asm_third.hic.hap1.p_ctg.fa \
  -c 20 \
  -m geno \
  --out pulchrum_hap1 \
  -l /home/server/database/busco_database/embryophyta_odb12 \
  --offline \
  -f &
  1. 绘图命令行
busco --plot_percentages --plot busco
  1. busco结果