By zhenzixu, 20 March, 2025
Forums

【金山文档 | WPS云文档】 从NCBI下载SRA数据,并转为fastq格式 https://kdocs.cn/l/cotwHimfTYuG

1.数据查找

在NCBI下载转录组数据时推荐通过以下方式:

点击SRA

Send to——Run Selector——Go

即可得到:

选择需要下载的sra数据下载Accession List即可获得id

2.下载方法(提前下载SRA Toolkit

注意:下载数据格式为xxx.sra,如果下载为其他格式,例如:xxx.sralite(精简版本),转换为fastq过程中会出问题 请检查SRA Toolkit是否安装成功

以SRR12634408为例

在命令行输入

prefetch SRR12634408

若想限制下载大小,加参数--max-size

例如:设置下载文件的最大允许大小100 GB,超过此限制会终止下载并报错

prefetch SRR12634408 --max-size 100G

批量下载:

将需下载SRR***,保存于txt文档中,xxx.txt

例:

prefetch --option-file list.txt

二、将SRA转为fastq

单端测序:

fastq-dump SRR12634408

双端测序:

fastq-dump --split-3 SRR12634408

fastq.gz格式

fastq-dump --split-3 SRR12634408.sra --gzip

批量转化

parallel -j 4 "fastq-dump --gzip --split-files -A {.} {}" ::: *.sra

parallel

  • GNU Parallel 工具的主命令,用于并行执行任务
  • 自动将任务分配到多个 CPU 核心同时运行

-j

并行作业数

 

  • ::::Parallel 的参数分隔符,后面跟着要处理的项目列表
  • *.sra:通配符,匹配当前目录下所有 .sra 文件

注意:

检查parallel是否已安装,如果未安装,需先安装

parallel --version
sudo apt-get install parallel