By jiangchenhao, 30 October, 2025

Forums

金山文档原始的link

背景

basenumber的付费方式是手机流量制的，我们之前使用的时候没有注意到这一点，这是什么意思呢，就是我们之前花了一万块钱买了7T流量，这个流量只能用一年，一年过了之后，不管剩下多少流量，都会清除。现在我们的解决办法是申请临时授权。

后面我觉得这个工作本质上就是拆分小块给GPU加速就好了，我想问问AI如果要这么干会用到哪些框架。

这个也是

但是它说的这个东西我是没有找到的，我找到的是下面这个东西：

需要注意的是这个工具是是25年才发布的，我们签合同的时候确实用不了。

官方链接

https://docs.nvidia.com/clara/index.html

https://docs.nvidia.com/clara/parabricks/3.8.0/how-tos/wholegenomegermlinesmallvariants.html

老黄家的

这个工具实际上应该是封装了DeepVariant

bwa部分应该没有加速

流程

docker pull nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1
#略掉打包上传服务器等等步骤

跑GATK部分的流程

让AI根据官方说明转换的https://docs.nvidia.com/clara/parabricks/latest/gettingstarted/gettingthesoftware.html

docker run --gpus all --rm -v $(pwd):/workspace -v /data/jiangchenhao/torreya_bwa_output/genome_data/stdin.split:/ref nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 pbrun haplotypecaller --ref /ref/Chr1.fa --in-bam /workspace/ZWY_1_clean.sorted.Chr10.dedup.filtered.bam --out-variants /workspace/sample.g.vcf.gz --emit-ref-confidence GVCF

报错了，原因是版本cuda版本太低了，但是这个动了其他docker也可能会出问题，所以我再去pull一个低版本。

docker pull nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1

docker run --gpus all --rm -v $(pwd):/workspace -v /data/jiangchenhao/torreya_bwa_output/genome_data/stdin.split:/ref nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 pbrun haplotypecaller --ref /ref/Chr1.fa --in-bam /workspace/ZWY_1_clean.sorted.Chr1.dedup.filtered.bam --out-variants /workspace/sample.g.vcf.gz --gvcf --num-gpus 1

跑上了已经

这也不怎么吃内存，我可以在工作站和93上并行这个工作，因为两者都有两张显卡

速度不慢，5分钟跑了50MB，也就是说一个小时多可以跑完

成功解决了被basenumber卡脖子的问题

那它能不能用于合并多个GVCF文件呢，应该也是可以的。

https://github.com/clara-parabricks-workflows/genomics-analysis-blueprint我现在严重怀疑basenumber是对英伟达软件的抄袭

膜拜一下

[E::hts_idx_push] Region 536870911..536870917 cannot be stored in a tbi index.
Try using a csi index with min_shift = 14, n_lvls >= 6

高兴早了，染色体太大了报错了

让我建csi索引，我很确定我已经构建了csi索引所以应该是它的流程里面有为bam文件构建bai索引这一步然后用了bai索引

所以要做的就是进到他的原始代码里面把bai换成csi就好了

找，找到了再说

问题可能出在他调用的Deep Variant

deepvariant will automatically switch to csi index for larger files, but these were not being picked up in the output, causing failure

还真是，这个东西真就是他调包的时候的底层代码的问题。

好吧问题不在Deep Variant，应该在流程中的调包，这个定位应该还是没那么快的。

我看见了他也支持转录组数据 Call SNP 这是个重大利好

坏消息是我是真tm没找到哪里有构建索引的文件

basenumber应该是独立的工作，真说不好谁抄谁，但是现在有了替代品之后，也差不多要完蛋了。

太难搞了，得找到这个该死的索引文件，要不然搞不定。

他似乎有个论坛

https://forums.developer.nvidia.com/c/healthcare/parabricks/290

升级到4.6版本才重新跑试试看。

好的，现在仍然是没法用的。gp

已经在英伟达的论坛下做了详细的报错说明，等待程序升级支持。

我们也可以考虑使用DeepVariant 手动跑这一步，我不知道是否麻烦。

已经证明了。简单地拆分bam文件解决不了任何问题，。

转战deepvariant

https://www.kdocs.cn/l/ck0DUfCyitcg