基于“一种基于全基因组选择的杨树生长性状最优预测体系及其构建方法和应用”进行设计
步骤流程:
- 重测序和基因分型
重测序部分参考叶倩男的文章
基因分型的质控(从598万个SNP的数据集开始):
使用VCFtools和PLINK软件,质控标准:测序深度大于3X,完整度大于0.8,最小等位基因频率(MAF)≥0.05,缺失率低于20%,符合哈迪-温伯格平衡(HW)(即P>0.00001);
使用BEAGLE软件对过滤后的SNP数据进行填补;
使用ANNOVAR软件对SNP位点进行注释和功能预测
最终得到一个确定数量的高质量SNP位点数据集作为基因型数据
一、全基因组关联分析
(参考中的方法)
使用PLINK、GEMMA软件进行主成分分析和亲缘关系分析,获得PCA矩阵和Kinship矩阵;
使用GEMMA,结合表型数据,以群体结构为固定效应、亲缘关系为随机效应加入到混合线性模型的分析中,获得每个SNP位点与性状相关的P值,根据Bonferroni矫正设置显著性阈值(P<1.01E-4)筛选出与性状显著相关的SNP位点
(本课题中的方法)
使用GAPIT软件,以不同的关联分析模型进行关联分析,选择的模型有GLM、MLM、MLMM、CMLM、BLINK、SUPER、FarmCPU,根据QQ-Plot结果筛选出最佳的模型,以最佳模型的关联分析结果获得每个SNP位点与性状相关的P值,根据Bonferroni矫正设置显著性阈值(P<1.01E-4)筛选出与性状显著相关的SNP位点
将GWAS结果以P值由小到大进行排序,分别以最佳的SNP、Top1000、Top2000、Top3000、Top4000、Top5000、Top6000、Top7000、Top8000...建立足够多的SNP数据集以找到最优的SNP基因型位点集
二、全基因组选择分析
以5X交叉验证,80%的样本作为训练群体,20%的样本作为测试群体
不同数量的SNP基因型位点集为基因型数据集
选定的高山杜鹃表型为表型数据集
16个基因型选择模型
迭代500次,使用估计育种值与观测值之间的Pearson相关系数作为GS准确性的指标
专利中选定的GS模型
使用R语言的rrBLUP包:GBLUP、rrBLUP
使用R语言的BGLR包:BayesRR、BayesA、BayesB、BayesC、BayesLASSO
使用Python语言的SKLearn(Scikit-learn)安装包:ML-Ridge、ElasticNet、LinearRegression、KernelRige、PLSRegression、RandomForest、SVRlinear、SVRpoly
根据准确性结果进行评估,找到性状最佳的SNP数据集和GS模型,建立高山杜鹃指定性状的全基因组选择的最优预测体系。