【金山文档 | WPS云文档】 从NCBI下载SRA数据,并转为fastq格式 https://kdocs.cn/l/cotwHimfTYuG
1.数据查找
在NCBI下载转录组数据时推荐通过以下方式:
点击SRA
Send to——Run Selector——Go
即可得到:
选择需要下载的sra数据下载Accession List即可获得id
2.下载方法(提前下载SRA Toolkit)
注意:下载数据格式为xxx.sra,如果下载为其他格式,例如:xxx.sralite(精简版本),转换为fastq过程中会出问题 请检查SRA Toolkit是否安装成功
以SRR12634408为例
在命令行输入
prefetch SRR12634408若想限制下载大小,加参数--max-size
例如:设置下载文件的最大允许大小为 100 GB,超过此限制会终止下载并报错
prefetch SRR12634408 --max-size 100G批量下载:
将需下载SRR***,保存于txt文档中,xxx.txt
例:
prefetch --option-file list.txt二、将SRA转为fastq
单端测序:
fastq-dump SRR12634408双端测序:
fastq-dump --split-3 SRR12634408fastq.gz格式
fastq-dump --split-3 SRR12634408.sra --gzip批量转化
parallel -j 4 "fastq-dump --gzip --split-files -A {.} {}" ::: *.sraparallel
- GNU Parallel 工具的主命令,用于并行执行任务
- 自动将任务分配到多个 CPU 核心同时运行
-j
并行作业数
::::Parallel 的参数分隔符,后面跟着要处理的项目列表*.sra:通配符,匹配当前目录下所有.sra文件
注意:
检查parallel是否已安装,如果未安装,需先安装
parallel --versionsudo apt-get install parallel