By Liu Qirui, 18 November, 2025

在全基因组选择的计算结果中存在两个PA概念:预测准确性(Prediction Accuracy)预测能力/可预测性(Predictive Ability,Predictability)

预测能力/可预测性(Predictive Ability,Predictability)

预测能力/可预测性 (PA) 定义为预测的基因组估计育种值(Genomic Estimated Breeding Value, GEBV)/遗传值(Genomic Breeding Value, GBV)与实测表型 y 的皮尔逊相关系数。

Lehermeier C, Wimmer V, Albrecht T, Auinger H J, Gianola D et al. , 2013 Sensitivity to prior specification in Bayesian genome-based prediction models. Stat. Appl. Genet. Mol. Biol. 12(3): 375–391.

可预测性使用K-fold交叉验证或留一法划分验证集,然后对验证集进行预测,得到每个个体的预测值(GEBV或表型值),然后计算Pearson相关系数:

预测准确性(Prediction Accuracy,PAc)

预测准确性通常指的是预测育种值(Genomic Estimated Breeding Value, GEBV)与真实育种值(True Breeding Value, TBV)之间的相关性。 它衡量的是预测模型对遗传潜力估计的精确程度。

预测准确性 = 预测能力 / 表型的遗传力(h²)的平方根

需要注意:TBV 的定义是一个个体能够稳定遗传给后代的所有加性遗传效应(Additive Genetic Effects)的总和。然而真实基因型的影响还包括显性效应(Dominance Effects)和上位性效应(Epistatic Effects)。这些非加性效应虽然影响个体自身的表型,但它们在有性生殖中分离,不能完整地、稳定地遗传给后代。除非克隆,否则你无法观测到只包含加性效应的表现,因为显性、上位性和环境效应总是混在一起。

因此,在一些定义中预测准确性也被描述为估计育种值(Estimated Breeding Value, EBV)与克隆群体的平均值的Pearson相关系数除以狭义遗传力的平方根。然而在实际计算中,由于几乎不可能真的获得来自于全克隆群体的真实育种值(True Breeding Value, TBV),因此

可预测性和预测准确性的关系

要理解PAc与PA之间的关系,本质上就是理解真实育种值TBV与观测表型值P之间的关系:

一般认为

P = G + E

即遗传效应(Genotype Effect)和环境效应(Environmental Effect)的共同作用,而遗传效应中又分为加性效应、显性效应、上位性效应等。

所谓真实遗传值TBV,通常指一个个体能够稳定遗传给后代的所有加性遗传效应(Additive Genetic Effects)的总和。

因此,TBV只是G的一个组成部分,我们只能观测到P,且往往无法完美地将TBV与显性效应、上位行效应等其他遗传效应分开。这意味着实际上:

PAc = r (GEBV, TBV)

PA = r (GEBV, P )

当表型受加性遗传效应较大的情况下,可以近似的认为,TBV ≈ G,若假设GEBV和TBV均环境效应(E)不相关、即统计独立:

r (GEBV, E ) = 0

r (TBV, E ) = 0

*GBLUP模型和Bayes模型均符合该假设(因为标准的线性混合模型仅考虑遗传效应)

基于上述假设,可进行以下推导: