统计推断
🔍 什么是统计推断?
统计推断是根据样本数据对总体特征进行推断的过程。它包括参数估计和假设检验两大类方法。 统计推断是统计学最重要的应用领域之一,帮助我们根据有限的样本信息做出关于总体的结论。
🔬 假设检验完整流程
📊 常见假设检验方法对比
| 检验方法 | 数据类型 | 检验目的 | 前提条件 | 检验统计量 |
|---|---|---|---|---|
| 单样本 t 检验 | 连续 | 比较样本均值与已知值 | 正态分布 | t 统计量 |
| 独立样本 t 检验 | 连续 | 比较两组均值 | 正态、方差齐性 | t 统计量 |
| 配对样本 t 检验 | 连续 | 比较配对数据均值 | 差值正态 | t 统计量 |
| 单因素方差分析 | 连续 | 比较三组及以上均值 | 正态、方差齐性 | F 统计量 |
| 卡方拟合优度检验 | 分类 | 检验分布是否符合预期 | 期望频数≥5 | χ²统计量 |
| 卡方独立性检验 | 分类 | 检验两变量是否独立 | 期望频数≥5 | χ²统计量 |
| Z 检验 | 连续 | 大样本均值检验 | 大样本 (n≥30) | Z 统计量 |
| Mann-Whitney U | 连续/有序 | 非参数两样本比较 | 无需正态假设 | U 统计量 |
📊 参数估计
1. 点估计
点估计是用样本统计量的一个具体数值作为总体参数的估计值。
- 样本均值 估计总体均值 μ
- 样本方差 估计总体方差 σ2
2. 区间估计(置信区间)
置信区间是参数的一个可能取值范围,该范围以一定的概率(置信水平)包含真实的参数值。
总体均值的置信区间
对于大样本(n ≥ 30),使用正态分布:
其中:
- x̄ - 样本均值
- zα/2 - 标准正态分布的临界值
- s - 样本标准差
- n - 样本容量
对于小样本(n < 30),使用 t 分布:
🧮 置信区间计算器
输入样本统计量,计算总体均值的置信区间:
✅ 假设检验
基本概念
假设检验是根据样本数据对关于总体参数的假设进行检验的方法。
假设的类型:
- 原假设 (H0):通常表示"没有差异"或"没有效果"
- 备择假设 (H1):通常表示"有差异"或"有效果"
检验步骤:
- 建立原假设和备择假设
- 选择适当的检验统计量
- 确定显著性水平(通常为 0.05)
- 计算检验统计量的值
- 做出决策:拒绝或不拒绝原假设
常见的检验类型:
1. z 检验
当总体标准差已知或样本容量较大时使用。
2. t 检验
当总体标准差未知且样本容量较小时使用。
3. 卡方检验
用于检验分类变量之间的独立性或拟合优度。
💡 假设检验示例
问题: 某工厂声称其生产的灯泡平均寿命为 1000 小时。 从生产线上随机抽取 36 个灯泡,测得平均寿命为 990 小时,标准差为 50 小时。 在 5% 的显著性水平下,能否支持工厂的声称?
解答步骤:
-
建立假设:
H0: μ = 1000(灯泡平均寿命为 1000 小时)
H1: μ ≠ 1000(灯泡平均寿命不为 1000 小时) -
选择检验统计量:
使用 t 检验(总体标准差未知) -
计算 t 值:
t = 990 - 100050 / 36 = -108.33 = -1.2 -
临界值:
在 α = 0.05,自由度为 35 时,t0.025, 35 ≈ 2.03 -
决策:
由于 |t| = 1.2 < 2.03,不拒绝原假设
🎯 重要概念
第一类错误和第二类错误
| H0 为真 | H0 为假 | |
|---|---|---|
| 拒绝 H0 | 第一类错误(假阳性) P = α |
正确决策 P = 1 - β |
| 不拒绝 H0 | 正确决策 P = 1 - α |
第二类错误(假阴性) P = β |
- 第一类错误(α):原假设为真时拒绝原假设的概率
- 第二类错误(β):原假设为假时不拒绝原假设的概率
- 检验功效(1-β):正确拒绝错误原假设的概率
📊 P 值(P-value)
什么是 P 值?
P 值是在原假设为真的条件下,观察到当前统计量或更极端结果的概率。 它是衡量证据强度的重要指标,而非原假设为真的概率。
P 值的解释
| P 值范围 | 解释 | 证据强度 |
|---|---|---|
| P > 0.10 | 不足以拒绝原假设 | 无证据 |
| 0.05 < P ≤ 0.10 | 边缘显著 | 弱证据 |
| 0.01 < P ≤ 0.05 | 统计显著 | 中等证据 |
| 0.001 < P ≤ 0.01 | 高度显著 | 强证据 |
| P ≤ 0.001 | 极其显著 | 极强证据 |
P 值的常见误解
- 误解 1: P 值是原假设为真的概率
正确:P 值是假设原假设为真时观察到当前结果(或更极端)的概率 - 误解 2: P < 0.05 意味着结果有实际意义
正确:P 值只表示统计显著性,需要结合效应量判断实际意义 - 误解 3: P = 0.05 是固定的显著性标准
正确:显著性水平应根据研究情境和后果进行调整
📏 效应量(Effect Size)
为什么需要效应量?
P 值受样本量影响很大:大样本可能检测到微小的、无实际意义的差异;小样本可能漏掉重要的差异。 效应量量化了差异或关联的大小,不受样本量影响。
常见的效应量指标
1. Cohen's d(用于两组均值比较)
标准化均值差异:
其中 spooled 是合并标准差
解释标准:
- |d| = 0.2:小效应
- |d| = 0.5:中等效应
- |d| = 0.8:大效应
2. 相关系数 r(Pearson 相关)
线性关系的强度:
解释标准:
- |r| = 0.1:小效应
- |r| = 0.3:中等效应
- |r| = 0.5:大效应
3. R²(决定系数)
回归模型中因变量变异的可解释比例:
SSR:回归平方和,SSE:残差平方和,SST:总平方和
🔀 多重比较问题(Multiple Testing Problem)
问题背景
当同时进行多个假设检验时,出现至少一个第一类错误的概率会显著增加。 如果进行 k 次独立检验,每次显著性水平为 α,则至少犯一次第一类错误的概率为:
校正方法
1. Bonferroni 校正
最简单但最保守的方法:
优点:简单易用,严格控制第一类错误
缺点:过于保守,可能降低检验功效
2. Holm-Bonferroni 方法
逐步降序调整,比 Bonferroni 更有效:
- 将所有 P 值从小到大排序:P(1) ≤ P(2) ≤ ... ≤ P(k)
- 对于第 i 个 P 值,比较 P(i) 与 αk - i + 1
- 从最小的 P 值开始,依次检验
优点:比 Bonferroni 更高效
缺点:仍然相对保守
3. Benjamini-Hochberg (BH) 方法
控制错误发现率(FDR):
优点:在控制 FDR 的同时保持较高功效
缺点:可能比 Holm 方法更容易出现第一类错误
📈 样本量计算(Power Analysis)
功效分析的四个要素
已知其中三个,可以计算第四个:
- 效应量(Effect Size):预期的差异大小
- 显著性水平(α):通常为 0.05
- 检验功效(1-β):通常为 0.8 或 0.9
- 样本量(n):需要计算
单样本 t 检验的样本量公式
其中 δ 是要检测的差异大小,σ 是总体标准差
样本量计算示例
问题:要检测均值为 5 的差异(总体标准差为 10),显著性水平 0.05,功效 0.8,需要多少样本?
解答:
- zα/2 = 1.96(双尾检验)
- zβ = 0.84(功效 0.8)
- n = (1.96 + 0.84)2 × 10252 = 7.84 × 10025 ≈ 31.36
🔬 非参数检验
何时使用非参数检验?
- 数据不满足正态分布假设
- 样本量较小
- 数据是序数或名义变量
- 存在明显的离群值
常见的非参数检验
1. Wilcoxon 符号秩检验(单样本或配对样本)
检验中位数是否等于某个值,或配对样本的中位数差异是否为 0
对应参数检验:单样本 t 检验、配对样本 t 检验
2. Mann-Whitney U 检验(独立两样本)
检验两个独立样本的分布是否相同
对应参数检验:独立样本 t 检验
3. Kruskal-Wallis 检验(多组样本)
检验多个独立样本的分布是否相同
对应参数检验:单因素方差分析(ANOVA)
4. Friedman 检验(重复测量)
检验多个相关样本的分布是否相同
对应参数检验:重复测量方差分析