https://kdocs.cn/l/cn8AphsESDKH
维度 | 分组(Grouping) | 组选择(Group Selection) |
核心操作 | 将对象 / 变量划分为若干组(创造分组) | 从已有分组中筛选出有价值的组(筛选分组) |
目的 | 降低复杂度,突出组内共性 | 保留关键信息,简化模型或决策 |
依赖关系 | 组选择的前提(需先有分组) | 分组的后续优化步骤(基于分组结果) |
典型工具 | 聚类算法、分箱、类别划分 | 组 LASSO、F 检验、交叉验证 |
组选择:是在已完成分组的基础上,从所有组中筛选出对研究目标 “有贡献” 或 “有意义” 的组的过程。与单个元素的选择(如变量选择中的单个特征)不同,组选择以 “组” 为基本单位,要么保留整个组,要么剔除整个组。
分组:是将具有相似特征的对象或变量归为一类的操作,核心目的是通过 “同类合并” 降低数据复杂度,突出组内共性和组间差异。
组自适性(Group Adaptivity): 是对 “组选择” 方法的优化与升级,核心是让模型根据 “组的重要性差异” 动态调整惩罚强度,而非对所有组使用统一的惩罚(如传统组 Lasso 的固定 λ)。这种 “差异化对待” 更贴合生物系统的真实逻辑 —— 不同功能组(如通路、基因家族)的生物学重要性本就不同(例如 “抑癌通路” 比 “随机基因簇” 更可能与疾病相关),因此需要 “按需调整筛选严格度”。
维度 | 组选择(如组 Lasso) | 组自适性(如自适应组 Lasso) |
惩罚逻辑 | 所有组统一惩罚强度 λ | 按组重要性分配权重\(w_g\),动态调整惩罚 |
优势 | 保留功能组完整性 | 在完整性基础上,优先保留重要组,剔除冗余组 |
适用场景 | 组重要性差异小的数据集 | 组重要性已知或可推断的数据集(如生物通路) |
核心目标 | 避免拆碎功能单元 | 既不拆碎单元,又能 “智能筛选” 重要单元 |
共线性(Collinearity):是高维数据(如基因表达、蛋白质组学数据)的常见特征,指变量间存在强相关性(如同一条通路的基因表达高度同步变化)。这种现象会干扰传统回归分析(如普通最小二乘),而惩罚回归(如弹性网、组自适应弹性网)是解决共线性的核心工具。以下从生物视角解读共线性的影响及应对方法
惩罚:按 “通路”“代谢模块” 等天然分组筛选(如把 “免疫通路” 作为一组),符合生物功能的协同性,结果更易解释(如 “某通路整体影响肿瘤生长” 比 “单个基因” 更有机制意义)。
方法 | 优势 | 局限(生物场景) |
组自适应弹性网 | 兼顾组选择与共线性,结果易解释 | 计算稍复杂(需定义分组) |
组 Lasso | 计算简单 | 对大通路不友好(易漏选小而重要的组) |
自适应 Lasso | 适合单变量筛选 | 忽略组功能,结果难关联生物学机制 |
岭回归 | 处理共线性好 | 不直接筛选变量(所有基因都保留) |
方法 | 缺陷 | 组自适应的改进 |
组 Lasso | 对所有组惩罚相同→ 小通路易被误删 | 按组重要性调整惩罚→ 保留关键小模块 |
弹性网 | 对所有组惩罚一致→ 共线性处理弱 | 组内加权重→ 同通路基因系数更均衡 |
岭回归 | 不筛选变量→ 保留大量噪声基因 | 结合组选择→ 聚焦功能单元,减少验证量 |
方法 | 缺陷 | 组自适应的改进 |
组 Lasso | 对所有组惩罚相同→ 小通路易被误删 | 按组重要性调整惩罚→ 保留关键小模块 |
弹性网 | 对所有组惩罚一致→ 共线性处理弱 | 组内加权重→ 同通路基因系数更均衡 |
岭回归 | 不筛选变量→ 保留大量噪声基因 | 结合组选择→ 聚焦功能单元,减少验证量 |