Description

侃大山,随便聊聊。有啥新奇特的Idea都可以分享。

By ruiyuan Li, 31 July, 2025

原始数据在/data/public_92/Torreya_grandis/NCBI-20230420,是鑫哥整理的版本
容器用的是鑫哥的061b51fa0bb3
数据处理
把从ncbi上下载的sra数据转换为fastq
下载sratoolkit
1. 创建专用环境
conda create -n sra_tools python=3.9
2. 激活环境
conda activate sra_tools
3. 安装 sratoolkit
conda install -c bioconda sra-tools
使用
单端测序(或RNA测序数据,最开始受网上信息的误导,博主讲RNA数据用单端测序,但是运行完发现,下载数据是双端测序的数据):
fastq-dump SRR23105320.sra -O /home/lry 
转换完成后,根据华东师兄的方法,压缩为gz文件
双端测序
fastq-dump SRR14306907.sra --split-3 --gzip -O ./ 
用华东师兄的流程跑,config,info文件的内容
PROJECT: ganhan

By ruiyuan Li, 31 July, 2025

董老师发我的娄老师那边的雌雄干旱转录组的fpkm,但是是孙老师注释的版本,需要先转换一下
放在92: /data3/liruiyuan/blast/home/work/positive/biada/cixiongganhan_fpkm.csv 
从鹏哥那里来的sun-ncc对应表
用下面这个代码替换的。是sun到ncc版本的替换,适用于sun到其他版本。
ncc到sun版本不一定适用。
def replace_gene_ids(expression_file, id_map_file, output_file):
   id_map = {}
   with open(id_map_file, 'r') as f:
       for line in f:
           line = line.strip()
           if not line or '\t' not in line:
               continue
           parts = line.split('\t')
           if len(parts) == 2:

By ruiyuan Li, 31 July, 2025

表达基因聚类分析

• 进行 Mfuzz 聚类分析(假设已完成表达矩阵标准化)推荐使用 log2(TPM + 1) 或 log2(FPKM + 1) 的表达矩阵。
• 绘制聚类趋势图并保存为 PNG 图片
• 自动导出每一类基因列表到 txt 文件
• 自动统计每一类的基因数目,并保存为表格
根据需求修改输入和输出文件及文件夹位置

By wuzhenzhen, 11 July, 2025

背景:

为了解决网站的SQL注入的问题,直接在服务器上修改代码有点太麻烦了,所以选择在本地修改好后传到服务器上。因此,需要将服务器上的数据库打包成sql文件,重新传到电脑本地数据库上。但是在传到本地数据库这一步,遇到了报错。

报错1:

[SQL] Query fpkm_202507 start
[ERR] 2006 - MySQL server has gone away
[ERR] -- MariaDB dump 10.19  Distrib 10.4.27-MariaDB, for Linux (x86_64)

解决:经查找怀疑是max_allowed_packet参数有问题。因此,在数据库的配置文件my.ini中,找到该参数,发现默认值为1M。而自己导入的sql文件为300M。将参数修改为512M后,报错解决。

 

报错2:

上述问题解决后,传到第二个sql后缀文件时,又遇到了下述错误: