如果有什么常用的资源,可以大家一起分享的,请在此处分享。
一、基因结构
准备基因ID和gff文件
如果有什么常用的资源,可以大家一起分享的,请在此处分享。
一、基因结构
准备基因ID和gff文件
1. 请大家对自己的容器进行备注。链接为https://www.kdocs.cn/l/cb4pmHnjiXlp
2. 课题组私有镜像仓库地址10.202.40.90。打包镜像时不要打包大型数据,镜像内部要包含必要文件,环境和使用说明。理论上单个镜像不应该超过20GB,使用深度学习模型的docker除外。由于我们服务器的系统版本比较低,安装的podman只支持在root用户下打包,请大家把镜像commit好后告诉姜晨昊,由他完成上传。
3. 启动容器的时候必须挂载路径,docker启动的时候默认挂载/data,docker崩溃数据无法取出;还会造成/data越来越大,越来越满,一旦/data满了,所有92,93上的docker程序都会停止、崩溃。
4. 每个人原则上只允许有一个长期运行的虚拟机性质的容器。
5. 容器命名规则:以唯一前缀作为容器开头名字 ,例如jch_esmfold 是姜晨昊的esmfold容器。
6.现计划每两周统计一次容器大小。
本次记录是在完成潘母港的全部数据录入后。
具体操作:
尝试了多种方法安装future.apply包都报错装不上
一、 准备环境 确保已安装:
• bedtools(用于基因组操作)
• samtools(用于索引基因组文件)
• grep、awk(文本处理)
如未安装,运行以下命令:
sudo apt-get update
sudo apt-get install bedtools samtools
二、 准备输入文件
• 基因组文件 genome.fa
• 注释文件 .gff
三、 提取
1.生成索引基因组文件 samtools faidx genome.fa
2.创建基因位置提取脚本
注:将脚本以.txt格式上传,extract_promoters.txt
3.执行脚本
# 使脚本可执行
chmod +x extract_promoters.sh
# 运行脚本
./extract_promoters.sh
结果验证:
# 查看提取的基因数量
grep -c ">" target_promoters.fa
# 查看序列长度分布