统计推断

🔍 什么是统计推断?

统计推断是根据样本数据对总体特征进行推断的过程。它包括参数估计和假设检验两大类方法。 统计推断是统计学最重要的应用领域之一,帮助我们根据有限的样本信息做出关于总体的结论。

🔬 假设检验完整流程

📝 提出假设
H₀: 原假设
H₁: 备择假设
📊 选择检验方法
比较均值?
t 检验 / Z 检验
分类数据?
卡方检验
多组比较?
方差分析
🧮 计算检验统计量
🔍 P 值 < α?
❌ 拒绝 H₀
✓ 不拒绝 H₀
📝 得出结论

📊 常见假设检验方法对比

检验方法 数据类型 检验目的 前提条件 检验统计量
单样本 t 检验 连续 比较样本均值与已知值 正态分布 t 统计量
独立样本 t 检验 连续 比较两组均值 正态、方差齐性 t 统计量
配对样本 t 检验 连续 比较配对数据均值 差值正态 t 统计量
单因素方差分析 连续 比较三组及以上均值 正态、方差齐性 F 统计量
卡方拟合优度检验 分类 检验分布是否符合预期 期望频数≥5 χ²统计量
卡方独立性检验 分类 检验两变量是否独立 期望频数≥5 χ²统计量
Z 检验 连续 大样本均值检验 大样本 (n≥30) Z 统计量
Mann-Whitney U 连续/有序 非参数两样本比较 无需正态假设 U 统计量

📊 参数估计

1. 点估计

点估计是用样本统计量的一个具体数值作为总体参数的估计值。

  • 样本均值 估计总体均值 μ
  • 样本方差 估计总体方差 σ2

2. 区间估计(置信区间)

置信区间是参数的一个可能取值范围,该范围以一定的概率(置信水平)包含真实的参数值。

总体均值的置信区间

对于大样本(n 30),使用正态分布:

± zα/2 · sn

其中:

  • - 样本均值
  • zα/2 - 标准正态分布的临界值
  • s - 样本标准差
  • n - 样本容量

对于小样本(n < 30),使用 t 分布:

± tα/2, n-1 · sn

🧮 置信区间计算器

输入样本统计量,计算总体均值的置信区间:

✅ 假设检验

基本概念

假设检验是根据样本数据对关于总体参数的假设进行检验的方法。

假设的类型:

  • 原假设 (H0):通常表示"没有差异"或"没有效果"
  • 备择假设 (H1):通常表示"有差异"或"有效果"

检验步骤:

  1. 建立原假设和备择假设
  2. 选择适当的检验统计量
  3. 确定显著性水平(通常为 0.05)
  4. 计算检验统计量的值
  5. 做出决策:拒绝或不拒绝原假设

常见的检验类型:

1. z 检验

当总体标准差已知或样本容量较大时使用。

z = - μ0σ / n

2. t 检验

当总体标准差未知且样本容量较小时使用。

t = - μ0s / n

3. 卡方检验

用于检验分类变量之间的独立性或拟合优度。

💡 假设检验示例

问题: 某工厂声称其生产的灯泡平均寿命为 1000 小时。 从生产线上随机抽取 36 个灯泡,测得平均寿命为 990 小时,标准差为 50 小时。 在 5% 的显著性水平下,能否支持工厂的声称?

解答步骤:

  1. 建立假设:
    H0: μ = 1000(灯泡平均寿命为 1000 小时)
    H1: μ 1000(灯泡平均寿命不为 1000 小时)
  2. 选择检验统计量:
    使用 t 检验(总体标准差未知)
  3. 计算 t 值:
    t = 990 - 100050 / 36 = -108.33 = -1.2
  4. 临界值:
    α = 0.05,自由度为 35 时,t0.025, 35 2.03
  5. 决策:
    由于 |t| = 1.2 < 2.03,不拒绝原假设
结论: 在 5% 的显著性水平下,样本数据支持工厂的声称, 可以认为灯泡的平均寿命为 1000 小时。

🎯 重要概念

第一类错误和第二类错误

H0 为真 H0 为假
拒绝 H0 第一类错误(假阳性)
P = α
正确决策
P = 1 - β
不拒绝 H0 正确决策
P = 1 - α
第二类错误(假阴性)
P = β
  • 第一类错误(α:原假设为真时拒绝原假设的概率
  • 第二类错误(β:原假设为假时不拒绝原假设的概率
  • 检验功效(1-β:正确拒绝错误原假设的概率

📊 P 值(P-value)

什么是 P 值?

P 值是在原假设为真的条件下,观察到当前统计量或更极端结果的概率。 它是衡量证据强度的重要指标,而非原假设为真的概率。

P-value = P(观察到的或更极端的结果} | H0 为真)

P 值的解释

P 值范围 解释 证据强度
P > 0.10 不足以拒绝原假设 无证据
0.05 < P ≤ 0.10 边缘显著 弱证据
0.01 < P ≤ 0.05 统计显著 中等证据
0.001 < P ≤ 0.01 高度显著 强证据
P ≤ 0.001 极其显著 极强证据
⚠️ 重要提醒: P 值 ≠ 0.05 不是"魔法界限"。不要将 P 值作为衡量研究价值的唯一标准。 应该关注效应量、置信区间和研究设计的合理性。

P 值的常见误解

  • 误解 1: P 值是原假设为真的概率
    正确:P 值是假设原假设为真时观察到当前结果(或更极端)的概率
  • 误解 2: P < 0.05 意味着结果有实际意义
    正确:P 值只表示统计显著性,需要结合效应量判断实际意义
  • 误解 3: P = 0.05 是固定的显著性标准
    正确:显著性水平应根据研究情境和后果进行调整

📏 效应量(Effect Size)

为什么需要效应量?

P 值受样本量影响很大:大样本可能检测到微小的、无实际意义的差异;小样本可能漏掉重要的差异。 效应量量化了差异或关联的大小,不受样本量影响。

常见的效应量指标

1. Cohen's d(用于两组均值比较)

标准化均值差异:

d = 1 - 2spooled

其中 spooled 是合并标准差

解释标准:

  • |d| = 0.2:小效应
  • |d| = 0.5:中等效应
  • |d| = 0.8:大效应

2. 相关系数 r(Pearson 相关)

线性关系的强度:

r = (xi - )(yi - )(xi - )2(yi - )2

解释标准:

  • |r| = 0.1:小效应
  • |r| = 0.3:中等效应
  • |r| = 0.5:大效应

3. R²(决定系数)

回归模型中因变量变异的可解释比例:

R2 = SSRSST = 1 - SSESST

SSR:回归平方和,SSE:残差平方和,SST:总平方和

🔀 多重比较问题(Multiple Testing Problem)

问题背景

当同时进行多个假设检验时,出现至少一个第一类错误的概率会显著增加。 如果进行 k 次独立检验,每次显著性水平为 α,则至少犯一次第一类错误的概率为:

P(至少一次第一类错误}) = 1 - (1 - α)k

校正方法

1. Bonferroni 校正

最简单但最保守的方法:

αadjusted = αk

优点:简单易用,严格控制第一类错误
缺点:过于保守,可能降低检验功效

2. Holm-Bonferroni 方法

逐步降序调整,比 Bonferroni 更有效:

  1. 将所有 P 值从小到大排序:P(1) ≤ P(2) ≤ ... ≤ P(k)
  2. 对于第 i 个 P 值,比较 P(i)αk - i + 1
  3. 从最小的 P 值开始,依次检验

优点:比 Bonferroni 更高效
缺点:仍然相对保守

3. Benjamini-Hochberg (BH) 方法

控制错误发现率(FDR):

P(i)ik × α

优点:在控制 FDR 的同时保持较高功效
缺点:可能比 Holm 方法更容易出现第一类错误

📈 样本量计算(Power Analysis)

功效分析的四个要素

已知其中三个,可以计算第四个:

  • 效应量(Effect Size):预期的差异大小
  • 显著性水平(α:通常为 0.05
  • 检验功效(1-β:通常为 0.8 或 0.9
  • 样本量(n):需要计算

单样本 t 检验的样本量公式

n = (zα/2 + zβ)2 × σ2δ2

其中 δ 是要检测的差异大小,σ 是总体标准差

样本量计算示例

问题:要检测均值为 5 的差异(总体标准差为 10),显著性水平 0.05,功效 0.8,需要多少样本?

解答:

  • zα/2 = 1.96(双尾检验)
  • zβ = 0.84(功效 0.8)
  • n = (1.96 + 0.84)2 × 10252 = 7.84 × 10025 ≈ 31.36
结论:至少需要 32 个样本才能达到 80% 的检验功效。

🔬 非参数检验

何时使用非参数检验?

  • 数据不满足正态分布假设
  • 样本量较小
  • 数据是序数或名义变量
  • 存在明显的离群值

常见的非参数检验

1. Wilcoxon 符号秩检验(单样本或配对样本)

检验中位数是否等于某个值,或配对样本的中位数差异是否为 0

对应参数检验:单样本 t 检验、配对样本 t 检验

2. Mann-Whitney U 检验(独立两样本)

检验两个独立样本的分布是否相同

对应参数检验:独立样本 t 检验

3. Kruskal-Wallis 检验(多组样本)

检验多个独立样本的分布是否相同

对应参数检验:单因素方差分析(ANOVA)

4. Friedman 检验(重复测量)

检验多个相关样本的分布是否相同

对应参数检验:重复测量方差分析

⚠️ 注意:非参数检验通常比参数检验功效更低。如果数据满足参数检验的假设,应优先使用参数检验。