统计推断
🔍 什么是统计推断?
统计推断是根据样本数据对总体特征进行推断的过程。它包括参数估计和假设检验两大类方法。 统计推断是统计学最重要的应用领域之一,帮助我们根据有限的样本信息做出关于总体的结论。
📊 参数估计
1. 点估计
点估计是用样本统计量的一个具体数值作为总体参数的估计值。
- 样本均值 估计总体均值 $\mu$
- 样本方差 估计总体方差 $\sigma^2$
2. 区间估计(置信区间)
置信区间是参数的一个可能取值范围,该范围以一定的概率(置信水平)包含真实的参数值。
总体均值的置信区间
对于大样本($n \geq 30$),使用正态分布:
$$\bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}$$
其中:
- $\bar{x}$ - 样本均值
- $z_{\alpha/2}$ - 标准正态分布的临界值
- $s$ - 样本标准差
- $n$ - 样本容量
对于小样本($n < 30$),使用 t 分布:
$$\bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}}$$
🧮 置信区间计算器
输入样本统计量,计算总体均值的置信区间:
✅ 假设检验
基本概念
假设检验是根据样本数据对关于总体参数的假设进行检验的方法。
假设的类型:
- 原假设 ($H_0$):通常表示"没有差异"或"没有效果"
- 备择假设 ($H_1$):通常表示"有差异"或"有效果"
检验步骤:
- 建立原假设和备择假设
- 选择适当的检验统计量
- 确定显著性水平(通常为 0.05)
- 计算检验统计量的值
- 做出决策:拒绝或不拒绝原假设
常见的检验类型:
1. z 检验
当总体标准差已知或样本容量较大时使用。
$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$
2. t 检验
当总体标准差未知且样本容量较小时使用。
$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$
3. 卡方检验
用于检验分类变量之间的独立性或拟合优度。
💡 假设检验示例
问题: 某工厂声称其生产的灯泡平均寿命为 1000 小时。 从生产线上随机抽取 36 个灯泡,测得平均寿命为 990 小时,标准差为 50 小时。 在 5% 的显著性水平下,能否支持工厂的声称?
解答步骤:
-
建立假设:
$H_0: \mu = 1000$(灯泡平均寿命为 1000 小时)
$H_1: \mu \neq 1000$(灯泡平均寿命不为 1000 小时) -
选择检验统计量:
使用 t 检验(总体标准差未知) -
计算 t 值:
$t = \frac{990 - 1000}{50 / \sqrt{36}} = \frac{-10}{8.33} = -1.2$ -
临界值:
在 $\alpha = 0.05$,自由度为 35 时,$t_{0.025, 35} \approx 2.03$ -
决策:
由于 $|t| = 1.2 < 2.03$,不拒绝原假设
结论: 在 5% 的显著性水平下,样本数据支持工厂的声称,
可以认为灯泡的平均寿命为 1000 小时。
🎯 重要概念
第一类错误和第二类错误
| $H_0$ 为真 | $H_0$ 为假 | |
|---|---|---|
| 拒绝 $H_0$ | 第一类错误(假阳性) $P = \alpha$ |
正确决策 $P = 1 - \beta$ |
| 不拒绝 $H_0$ | 正确决策 $P = 1 - \alpha$ |
第二类错误(假阴性) $P = \beta$ |
- 第一类错误($\alpha$):原假设为真时拒绝原假设的概率
- 第二类错误($\beta$):原假设为假时不拒绝原假设的概率
- 检验功效($1-\beta$):正确拒绝错误原假设的概率