金山文档原始的link
背景
basenumber的付费方式是手机流量制的,我们之前使用的时候没有注意到这一点,这是什么意思呢,就是我们之前花了一万块钱买了7T流量,这个流量只能用一年,一年过了之后,不管剩下多少流量,都会清除。现在我们的解决办法是申请临时授权。
后面我觉得这个工作本质上就是拆分小块给GPU加速就好了,我想问问AI如果要这么干会用到哪些框架。
这个也是
但是它说的这个东西我是没有找到的,我找到的是下面这个东西:
需要注意的是这个工具是是25年才发布的,我们签合同的时候确实用不了。
官方链接
https://docs.nvidia.com/clara/index.html
https://docs.nvidia.com/clara/parabricks/3.8.0/how-tos/wholegenomegermlinesmallvariants.html
老黄家的
这个工具实际上应该是封装了DeepVariant
bwa部分应该没有加速
流程
docker pull nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1
#略掉打包上传服务器等等步骤跑GATK部分的流程
让AI根据官方说明转换的https://docs.nvidia.com/clara/parabricks/latest/gettingstarted/gettingthesoftware.html
docker run --gpus all --rm -v $(pwd):/workspace -v /data/jiangchenhao/torreya_bwa_output/genome_data/stdin.split:/ref nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 pbrun haplotypecaller --ref /ref/Chr1.fa --in-bam /workspace/ZWY_1_clean.sorted.Chr10.dedup.filtered.bam --out-variants /workspace/sample.g.vcf.gz --emit-ref-confidence GVCF报错了,原因是版本cuda版本太低了,但是这个动了其他docker也可能会出问题,所以我再去pull一个低版本。
docker pull nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1docker run --gpus all --rm -v $(pwd):/workspace -v /data/jiangchenhao/torreya_bwa_output/genome_data/stdin.split:/ref nvcr.io/nvidia/clara/clara-parabricks:4.4.0-1 pbrun haplotypecaller --ref /ref/Chr1.fa --in-bam /workspace/ZWY_1_clean.sorted.Chr1.dedup.filtered.bam --out-variants /workspace/sample.g.vcf.gz --gvcf --num-gpus 1跑上了已经
这也不怎么吃内存,我可以在工作站和93上并行这个工作,因为两者都有两张显卡
速度不慢,5分钟跑了50MB,也就是说一个小时多可以跑完
成功解决了被basenumber卡脖子的问题
那它能不能用于合并多个GVCF文件呢,应该也是可以的。
https://github.com/clara-parabricks-workflows/genomics-analysis-blueprint我现在严重怀疑basenumber是对英伟达软件的抄袭
膜拜一下
[E::hts_idx_push] Region 536870911..536870917 cannot be stored in a tbi index.
Try using a csi index with min_shift = 14, n_lvls >= 6高兴早了,染色体太大了报错了
让我建csi索引,我很确定我已经构建了csi索引 所以应该是它的流程里面有为bam文件构建bai索引这一步 然后用了bai索引
所以要做的就是进到他的原始代码里面 把bai换成csi就好了
找,找到了再说
问题可能出在他调用的Deep Variant
deepvariant will automatically switch to csi index for larger files, but these were not being picked up in the output, causing failure
还真是,这个东西真就是他调包的时候的底层代码的问题。
好吧问题不在Deep Variant,应该在流程中的调包,这个定位应该还是没那么快的。
我看见了 他也支持转录组数据 Call SNP 这是个重大利好
坏消息是 我是真tm没找到哪里有构建索引的文件
basenumber应该是独立的工作,真说不好谁抄谁,但是现在有了替代品之后,也差不多要完蛋了。
太难搞了,得找到这个该死的索引文件,要不然搞不定。
他似乎有个论坛
https://forums.developer.nvidia.com/c/healthcare/parabricks/290
升级到4.6版本才重新跑试试看。
好的,现在仍然是没法用的。gp
已经在英伟达的论坛下做了详细的报错说明,等待程序升级支持。
我们也可以考虑使用DeepVariant 手动跑这一步,我不知道是否麻烦。
已经证明了。简单地拆分bam文件解决不了任何问题,。