杜鹃基因组组装（4）：矫正和精修

By liyupeng, 31 January, 2026

Forums

juicebox矫正&最终fa文件输出（scaffolds）

juicebox矫正热图（这部分小培师姐完成的）

生成最终fa文件
1. 热图矫正后得到的.review.assembly用于输出最终的fa文件
  1. -o，指定输出文件的前缀
  2. .review.assembly，矫正过后的染色体的热图
  3. out_JBAT.liftover.agp，JBAT生成的文件，hic过滤步骤的饿到的
  4. pulchrum_asm_third.hic.p_ctg.fa，第一步组装的基因组序列文件

/root/miniconda3/envs/haphic3/bin/utils/juicer post \
  -o out_JBAT \
  ctg_out_JBAT.review.assembly \
  out_JBAT.liftover.agp \
  curated.fasta

out_JBAT.FINAL.fa，组装到染色体上的基因组文件

nextpolish只使用hifi数据的polish

Tutorial — NextPolish latest documentation

其他用于精修的工具
1. racon，对锚定到染色体前的contig进行精修（这个还有内存溢出的问题，丢进去的数据量大了就会，需要调整一下，开关暂未找到）
2. nextpolish2，同时利用二代和三代测序数据进行精修
制作一个condabag
1. conda里面的软件包也是良莠不齐的样子

conda create -n nextpolish -y
conda install nextpolish=1.4.1=py39h4a8586d_2 -c bioconda

准备lgs.fofn文件，一个记录将要使用的测序数据的路径

#ls reads1.fq reads2.fa.gz > lgs.fofn
#这里直接输入文件路径
/home/server/chuanshu/904/rawdata/m84288_s1.fq.gz
/home/server/chuanshu/904/rawdata/m84128_s4.fq.gz
/home/server/chuanshu/904/rawdata/leaf8.ccs.fasta.gz

创建run.cfg，配置文件，记录各种参数信息
1. 这里除了输入文件和工作目录调整一下外，其他就不动好了

[General]
job_type = local
job_prefix = nextPolish
task = best
rewrite = yes
rerun = 3
parallel_jobs = 6
multithread_jobs = 5
genome = ./ctg_all_rename.fa 
genome_size = auto
workdir = ./
polish_options = -p {multithread_jobs}

[lgs_option]
lgs_fofn = ./lgs.fofn
lgs_options = -min_read_len 1k -max_depth 100
lgs_minimap2_options = -x map-ont

运行nextpolish命令行

nohup nextPolish run.cfg &