By lihaoen, 31 July, 2025
Forums

https://kdocs.cn/l/cn8AphsESDKH

维度

分组(Grouping)

组选择(Group Selection)

核心操作

将对象 / 变量划分为若干组(创造分组)

从已有分组中筛选出有价值的组(筛选分组)

目的

降低复杂度,突出组内共性

保留关键信息,简化模型或决策

依赖关系

组选择的前提(需先有分组)

分组的后续优化步骤(基于分组结果)

典型工具

聚类算法、分箱、类别划分

组 LASSO、F 检验、交叉验证

组选择:是在已完成分组的基础上,从所有组中筛选出对研究目标 “有贡献” 或 “有意义” 的组的过程。与单个元素的选择(如变量选择中的单个特征)不同,组选择以 “组” 为基本单位,要么保留整个组,要么剔除整个组。

 

分组:是将具有相似特征的对象或变量归为一类的操作,核心目的是通过 “同类合并” 降低数据复杂度,突出组内共性和组间差异。

 

组自适性(Group Adaptivity): 是对 “组选择” 方法的优化与升级,核心是让模型根据 “组的重要性差异” 动态调整惩罚强度,而非对所有组使用统一的惩罚(如传统组 Lasso 的固定 λ)。这种 “差异化对待” 更贴合生物系统的真实逻辑 —— 不同功能组(如通路、基因家族)的生物学重要性本就不同(例如 “抑癌通路” 比 “随机基因簇” 更可能与疾病相关),因此需要 “按需调整筛选严格度”。

 

维度

组选择(如组 Lasso)

组自适性(如自适应组 Lasso)

惩罚逻辑

所有组统一惩罚强度 λ

按组重要性分配权重\(w_g\),动态调整惩罚

优势

保留功能组完整性

在完整性基础上,优先保留重要组,剔除冗余组

适用场景

组重要性差异小的数据集

组重要性已知或可推断的数据集(如生物通路)

核心目标

避免拆碎功能单元

既不拆碎单元,又能 “智能筛选” 重要单元

 

共线性(Collinearity):是高维数据(如基因表达、蛋白质组学数据)的常见特征,指变量间存在强相关性(如同一条通路的基因表达高度同步变化)。这种现象会干扰传统回归分析(如普通最小二乘),而惩罚回归(如弹性网、组自适应弹性网)是解决共线性的核心工具。以下从生物视角解读共线性的影响及应对方法

 

惩罚:按 “通路”“代谢模块” 等天然分组筛选(如把 “免疫通路” 作为一组),符合生物功能的协同性,结果更易解释(如 “某通路整体影响肿瘤生长” 比 “单个基因” 更有机制意义)。

 

方法

优势

局限(生物场景)

组自适应弹性网

兼顾组选择与共线性,结果易解释

计算稍复杂(需定义分组)

组 Lasso

计算简单

对大通路不友好(易漏选小而重要的组)

自适应 Lasso

适合单变量筛选

忽略组功能,结果难关联生物学机制

岭回归

处理共线性好

不直接筛选变量(所有基因都保留)

 

方法

缺陷

组自适应的改进

组 Lasso

对所有组惩罚相同→ 小通路易被误删

按组重要性调整惩罚→ 保留关键小模块

弹性网

对所有组惩罚一致→ 共线性处理弱

组内加权重→ 同通路基因系数更均衡

岭回归

不筛选变量→ 保留大量噪声基因

结合组选择→ 聚焦功能单元,减少验证量

 

方法

缺陷

组自适应的改进

组 Lasso

对所有组惩罚相同→ 小通路易被误删

按组重要性调整惩罚→ 保留关键小模块

弹性网

对所有组惩罚一致→ 共线性处理弱

组内加权重→ 同通路基因系数更均衡

岭回归

不筛选变量→ 保留大量噪声基因

结合组选择→ 聚焦功能单元,减少验证量