By lihaoen, 31 July, 2025
Forums

https://kdocs.cn/l/cu5QuWZnpZSM

  1. 惩罚(正则化):在统计模型中,通过向目标函数添加惩罚项来限制模型参数(系数)的大小,以避免过拟合、处理高维数据(特征数量远大于样本量)的方法。惩罚强度由惩罚参数控制,强度越大,对参数的约束越强,模型越简洁(部分参数可能被压缩至 0)。
  2. 共线性(多重共线性):指自变量(如 SNP)之间存在高度相关的现象。在回归模型中,共线性会导致参数估计不稳定(方差增大)、难以区分变量单独效应,而岭回归(Ridge)和弹性网络(Elastic Net)通过 L2 正则化压缩相关变量的系数,缓解这一问题。
  3. Lasso(L1 正则化):一种添加 L1 惩罚项(参数绝对值之和,的正则化方法。其特点是能产生稀疏解(部分参数被压缩至 0),实现变量选择,适用于从高维特征中筛选关键变量,但在处理高度共线变量时可能仅保留其中一个。
  4. 岭回归(Ridge Regression,L2 正则化):一种添加 L2 惩罚项(的正则化方法。通过压缩参数绝对值(但不使其为 0)来降低模型复杂度,缓解共线性问题,但不具备变量选择功能,会保留所有变量。
  5. 弹性网络(Elastic Net):结合 L1 和 L2 正则化的方法,既保留 Lasso 的变量选择能力(稀疏性),又具备岭回归处理共线性的优势,尤其适合高维且存在多重共线性的数据(如 SNP 数据)。
  6. 群组自适应弹性网(GAEnet):弹性网络的扩展,引入变量群组信息(如 SNP 的功能分组),在正则化过程中考虑群组内变量的关联性,更贴合生物学数据的结构特征,提高变量选择的准确性和可解释性。
  7. 惩罚参数(λ):控制正则化强度的参数(λ≥0)。λ 越大,惩罚越强,模型参数越稀疏(或压缩程度越高);λ=0 时无惩罚,等价于普通回归。通常通过交叉验证选择最优 λ。
  8. 混合参数(α):弹性网络中平衡 L1 和 L2 惩罚的参数(α∈[0,1])。α=1 时退化为 Lasso,α=0 时退化为岭回归,0<α<1 时为两者的加权组合,需根据数据特征(如共线性程度)调整。
  9. 交叉验证(CV):一种模型参数优化方法,将数据分为 k 个子集(如 10 折),轮流用 k-1 个子集训练模型,剩余 1 个子集验证,通过最小化验证误差(如均方误差)确定最优参数(如 λ 和 α),避免过拟合。
  10. 高维数据:指特征数量(p)远大于样本量(n)的数据集(p >> n),如基因组学中的 SNP 数据(可达百万级特征)。传统统计方法在高维数据中易出现过拟合和计算困难,正则化方法(如 Lasso、弹性网络)通过惩罚机制解决这一问题。
  11. 过拟合:模型过度拟合训练数据,导致在新数据上表现差的现象。表现为训练误差极低但测试误差高,正则化通过限制参数大小降低模型复杂度,有效避免过拟合。
  12. 连锁不平衡(LD):基因组中相邻 SNP 间的非随机关联现象,是 SNP 数据中常见的共线性来源。例如,染色体上距离近的 SNP 往往同时出现,导致它们在统计模型中难以区分独立效应,弹性网络通过 L2 惩罚压缩相关 SNP 的系数,缓解这种关联带来的干扰。
  13. 变量群组:具有某种共同属性的变量集合(如同一通路上的基因、同一染色体区域的 SNP)。群组自适应弹性网(GAEnet)利用这种群组信息,在正则化时对群组内变量施加协同惩罚,更符合生物学数据的内在结构。
  14. 组选择:一种高维变量选择方法,将具有共同属性(如功能、结构关联)的变量划分为群组,以群组为单位进行协同筛选(要么整体选中,要么整体排除),通过群组正则化惩罚项实现,强调利用变量的先验群组信息,平衡选择准确性与结果可解释性。
  15. 分组:根据变量的共同属性(如生物学功能、结构特征、逻辑类别等)将变量划分为若干集合的过程,为组选择提供基础,使变量间的内在关联在模型中得到体现。
  16. 传统线性回归:通过构建因变量与自变量变量的线性关系来建模和预测的方法,目标是最小化残差平方和以估计系数,适用于低维数据(特征数远小于样本量),但在高维数据或存在多重共线性时易出现过拟合和系数估计不稳定。
  17. 群组 Lasso:组选择的一种实现方式,对每个群组的系数向量施加 L2 范数惩罚,使整个群组的系数同时为 0 或非 0,实现群组层面的变量选择,保留群组整体性。
  18. 多重共线性:自变量间存在高度相关的现象,在传统线性回归中会导致系数估计方差增大、结果不稳定,而组选择等正则化方法可通过惩罚机制缓解这一问题。