在全基因组选择的计算结果中存在两个PA概念:预测准确性(Prediction Accuracy)和预测能力/可预测性(Predictive Ability,Predictability)
预测能力/可预测性(Predictive Ability,Predictability)
预测能力/可预测性 (PA) 定义为预测的基因组估计育种值(Genomic Estimated Breeding Value, GEBV)/遗传值(Genomic Breeding Value, GBV)与实测表型 y 的皮尔逊相关系数。
Lehermeier C, Wimmer V, Albrecht T, Auinger H J, Gianola D et al. , 2013 Sensitivity to prior specification in Bayesian genome-based prediction models. Stat. Appl. Genet. Mol. Biol. 12(3): 375–391.
可预测性使用K-fold交叉验证或留一法划分验证集,然后对验证集进行预测,得到每个个体的预测值(GEBV或表型值),然后计算Pearson相关系数:
预测准确性(Prediction Accuracy,PAc)
预测准确性通常指的是预测育种值(Genomic Estimated Breeding Value, GEBV)与真实育种值(True Breeding Value, TBV)之间的相关性。 它衡量的是预测模型对遗传潜力估计的精确程度。
预测准确性 = 预测能力 / 表型的遗传力(h²)的平方根
需要注意:TBV 的定义是一个个体能够稳定遗传给后代的所有加性遗传效应(Additive Genetic Effects)的总和。然而真实基因型的影响还包括显性效应(Dominance Effects)和上位性效应(Epistatic Effects)。这些非加性效应虽然影响个体自身的表型,但它们在有性生殖中分离,不能完整地、稳定地遗传给后代。除非克隆,否则你无法观测到只包含加性效应的表现,因为显性、上位性和环境效应总是混在一起。
因此,在一些定义中预测准确性也被描述为估计育种值(Estimated Breeding Value, EBV)与克隆群体的平均值的Pearson相关系数除以狭义遗传力的平方根。然而在实际计算中,由于几乎不可能真的获得来自于全克隆群体的真实育种值(True Breeding Value, TBV),因此
可预测性和预测准确性的关系
要理解PAc与PA之间的关系,本质上就是理解真实育种值TBV与观测表型值P之间的关系:
一般认为
P = G + E
即遗传效应(Genotype Effect)和环境效应(Environmental Effect)的共同作用,而遗传效应中又分为加性效应、显性效应、上位性效应等。
所谓真实遗传值TBV,通常指一个个体能够稳定遗传给后代的所有加性遗传效应(Additive Genetic Effects)的总和。
因此,TBV只是G的一个组成部分,我们只能观测到P,且往往无法完美地将TBV与显性效应、上位行效应等其他遗传效应分开。这意味着实际上:
PAc = r (GEBV, TBV)
PA = r (GEBV, P )
当表型受加性遗传效应较大的情况下,可以近似的认为,TBV ≈ G,若假设GEBV和TBV均环境效应(E)不相关、即统计独立:
r (GEBV, E ) = 0
r (TBV, E ) = 0
*GBLUP模型和Bayes模型均符合该假设(因为标准的线性混合模型仅考虑遗传效应)
基于上述假设,可进行以下推导: