Fisher 精确检验(Fisher's exact test)是一种用于分析分类数据(尤其是小样本)关联性的统计学方法,主要用于检验两个分类变量是否独立,适用于四格表(2×2 列联表)数据,当样本量较小时(如某一格子的期望频数<5),比卡方检验更准确。
核心原理
Fisher 精确检验的核心思想是:在给定边际频数(行合计和列合计)固定的条件下,计算观察到当前四格表及更极端情况的概率总和,以此判断两个分类变量是否关联。
1. 四格表结构
假设有两个分类变量,数据可整理为如下 2×2 列联表:
| 区间内 | 区间外 | 行合计 |
雄偏好 | a | b | a+b |
雌偏好 | c | d | c+d |
列合计 | a+c | b+d | n=a+b+c+d(总样本量) |
2. 关键假设
- 原假设(H₀):两个分类变量独立(无关联)。
- 备择假设(H₁):两个分类变量不独立(有关联)。
3. 计算逻辑
在 H₀成立的前提下,给定行合计(a+b, c+d)和列合计(a+c, b+d)固定,当前四格表的出现概率由超几何分布计算:
P=a!⋅b!⋅c!⋅d!⋅n!(a+b)!⋅(c+d)!⋅(a+c)!⋅(b+d)!
其中 “!” 表示阶乘。
4. 极端情况的概率总和
Fisher 精确检验并非仅计算当前表格的概率,而是累加所有与当前表格 “偏离独立性” 程度相同或更极端的表格的概率,得到最终的 P 值:
- 若 P 值<显著性水平(如 0.05),则拒绝 H₀,认为两个变量有关联;
- 否则不拒绝 H₀,即无充分证据表明关联存在。
5. 实例
| 区间内 | 区间外 | 行合计 |
雄偏好 | a | b | a+b |
非雄偏好 | c | d | c+d |
列合计 | a+c | b+d | n=a+b+c+d(总样本量) |
若计算上表格中计算得到的P值小于0.05,则认为区间内富集雄性偏好基因
【金山文档 | WPS云文档】 Fisher检验