一、MODAS介绍
2022年2月12日,中国农业大学农学院、国家玉米改良中心王向峰教授在著名国际学术期刊 Science Bulletin(影响因子:11.78)上发表了题为“ MODAS: exploring maize germplasm with multi-omics data association studies”的方法学研究论文 。 DOI:10.1016/j.scib.2022.01.021
全基因组关联分析(GWAS)是通过推断基因型与表型的关联显著性,实现挖掘种质资源的常规手段。但是,基于基因型-表型的传统GWAS分析存在诸多不足。
MODAS包含以下六大功能模块或分析步骤:
1、第一步,MODAS利用Jaccard index、 DBSCAN与PCA算法对基因型数据进行降维;将全基因组范围内数百万个SNP的基因型数据,抽象成由6万个基因组区段(Genomic blocks)代表群体的遗传变异,并生成伪基因型索引文件(Pseudo-genotype index file);该文件用于分子性状(即:基因表达、代谢物等等)的过滤,以及关键基因与代谢物的初步筛选(图1)。该步骤是大幅度提升多组学关联分析的关键步骤。
2、MODAS利用伪基因型文件首先将分子性状与基因组区间的关联分析;在获得显著关联的分子性状与区间后,提取区间内的SNP在进行第二部的分子性状与SNP基因型之间的关联分析,确定显著性;通过以上两步,实现分子性状的初步筛选
3、由于代谢物数据、表达数据可能存在较大的冗余,MODAS对共同关联到相同基因组区段的分子性状进行降维,降低关联分析的冗余。
4、MODAS将筛选出来的具有潜在生物学意义的分子性状(Biologically meaningful mTraits)进行基因表达-全基因组关联分析(eGWAS)或代谢物-全基因组关联分析(mGWAS),确定显著相关的分子性状与QTL。
5、MODAS将所有曼哈顿图以及QTL内基因信息进行注释与整合,生成可以网页式浏览的可视化数据库。
6、MODAS应用孟德尔随机化(Mendelian randomization, MR)算法,推断遗传变异、转录因子、目标基因、基因表达、代谢物含量、表型性状两两之间的因果关系。
二、MODAS安装
#安装conda环境
#在conda中创建环境
conda create -n modas python=3.8 -y
#使用官方文档进行安装,出现报错
conda install -y -c conda-forge r-rcppeigen r=3.6 rpy2 #出现报错 rpy和 3.6不支持
#所以先创建python环境
conda create -n myenv python=3.12
#启动环境
conda activate myenv
#安装rpy2,ry2是python和R的接口
conda install rpy2
#安装R
conda install r
#安装modas
$CONDA_PREFIX/bin/pip install MODAS