By liyupeng, 31 January, 2026
Forums

杜鹃基因组组装(4):矫正和精修

juicebox矫正&最终fa文件输出(scaffolds)

  1. juicebox矫正热图(这部分小培师姐完成的

  1. 生成最终fa文件
    1. 热图矫正后得到的.review.assembly用于输出最终的fa文件
      1. -o,指定输出文件的前缀
      2. .review.assembly,矫正过后的染色体的热图
      3. out_JBAT.liftover.agp,JBAT生成的文件,hic过滤步骤的饿到的
      4. pulchrum_asm_third.hic.p_ctg.fa,第一步组装的基因组序列文件
/root/miniconda3/envs/haphic3/bin/utils/juicer post \
  -o out_JBAT \
  ctg_out_JBAT.review.assembly \
  out_JBAT.liftover.agp \
  curated.fasta 
  1. out_JBAT.FINAL.fa,组装到染色体上的基因组文件

nextpolish只使用hifi数据的polish

Tutorial — NextPolish latest documentation

  1. 其他用于精修的工具
    1. racon,对锚定到染色体前的contig进行精修(这个还有内存溢出的问题,丢进去的数据量大了就会,需要调整一下,开关暂未找到
    2. nextpolish2,同时利用二代和三代测序数据进行精修
  2. 制作一个condabag
    1. conda里面的软件包也是良莠不齐的样子
conda create -n nextpolish -y
conda install nextpolish=1.4.1=py39h4a8586d_2 -c bioconda
  1. 准备lgs.fofn文件,一个记录将要使用的测序数据的路径
#ls reads1.fq reads2.fa.gz > lgs.fofn
#这里直接输入文件路径
/home/server/chuanshu/904/rawdata/m84288_s1.fq.gz
/home/server/chuanshu/904/rawdata/m84128_s4.fq.gz
/home/server/chuanshu/904/rawdata/leaf8.ccs.fasta.gz
  1. 创建run.cfg,配置文件,记录各种参数信息
    1. 这里除了输入文件和工作目录调整一下外,其他就不动好了
[General]
job_type = local
job_prefix = nextPolish
task = best
rewrite = yes
rerun = 3
parallel_jobs = 6
multithread_jobs = 5
genome = ./ctg_all_rename.fa 
genome_size = auto
workdir = ./
polish_options = -p {multithread_jobs}

[lgs_option]
lgs_fofn = ./lgs.fofn
lgs_options = -min_read_len 1k -max_depth 100
lgs_minimap2_options = -x map-ont
  1. 运行nextpolish命令行
nohup nextPolish run.cfg &