By shenyijun, 31 March, 2026

【金山文档 | WPS云文档】 从零开始的基因组注释人工校正,服务器文件准备篇
https://www.kdocs.cn/l/cbBdvoqUKbfe

本教程适用于小规模的注释校正,比如你已有个位数的目标gene ID,需要针对这几个基因进行更深入的生信分析,而通过序列比对发现蛋白序列大面积缺位,这时就可以考虑参考此教程进行基因组注释人工校正。

首先可以考虑用这个镜像挂载并开容器,本镜像已经配置好所需要的工具hisat2和samtools。

开始前我们需要的文件:基因组文件,基因注释文件,CDS文件,转录组原始文件(文件目录可向同门索取)(目标gene尽可能在转录组高表达,更方便校正,建议选择表达量最高的部位的转录组文件)

下面操作参考耿鑫师姐帖子“https://www.kdocs.cn/l/ci0FCoTUJGfc”并进行完善。

samtools faidx -i Tgrandis.fa#生成.fai索引
hisat2-build -p 50 Tgrandis.fa genome#生成ht2l索引,这一步要很久,注意限制线程。
#CDS序列构建比对基因组及构建索引
hisat2 -p 50 -x genome -f cds.fasta -S cds_vs_genome.sam #构建CDS的sam文件
samtools view -bS cds_vs_genome.sam > cds_vs_genome.bam #生成bam文件
samtools sort cds_vs_genome.bam -o cds_vs_genome.sort.bam #排序
samtools index -c -@ 4 cds_vs_genome.sort.bam#bam文件构建索引,-c生成CSI索引,-@指定线程数

这里我们得到了sort.bam和sort.bam.csi

接下来对转录组原始数据进行处理:

在已经有基因组索引的前提下:

hisat2 -p50-x genome -U gen_1.clean.fq.gz -S gen_1.sam#单端转录组比对 → SAM
samtools view -@ 4 -bS gen_1.sam > gen_1.bam#SAM 转 BAM(二进制)
samtools sort -@ 4 gen_1.bam -o gen_1.sort.bam# BAM 排序(必须排序才能建索引、IGV 查看)
samtools index -c -@ 4 gen_1.sort.bam#建 CSI 索引(你的基因组超长,必须加 -c)

这里同样得到sort.bam和sort.bam.csi

将genome文件、gff文件、sort.bam文件和sort.bam.csi文件拷贝到本地,进行可视化校正。