统计推断

🔍 什么是统计推断?

统计推断是根据样本数据对总体特征进行推断的过程。它包括参数估计和假设检验两大类方法。 统计推断是统计学最重要的应用领域之一,帮助我们根据有限的样本信息做出关于总体的结论。

📊 参数估计

1. 点估计

点估计是用样本统计量的一个具体数值作为总体参数的估计值。

  • 样本均值 估计总体均值 $\mu$
  • 样本方差 估计总体方差 $\sigma^2$

2. 区间估计(置信区间)

置信区间是参数的一个可能取值范围,该范围以一定的概率(置信水平)包含真实的参数值。

总体均值的置信区间

对于大样本($n \geq 30$),使用正态分布:

$$\bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}$$

其中:

  • $\bar{x}$ - 样本均值
  • $z_{\alpha/2}$ - 标准正态分布的临界值
  • $s$ - 样本标准差
  • $n$ - 样本容量

对于小样本($n < 30$),使用 t 分布:

$$\bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}}$$

🧮 置信区间计算器

输入样本统计量,计算总体均值的置信区间:

✅ 假设检验

基本概念

假设检验是根据样本数据对关于总体参数的假设进行检验的方法。

假设的类型:

  • 原假设 ($H_0$):通常表示"没有差异"或"没有效果"
  • 备择假设 ($H_1$):通常表示"有差异"或"有效果"

检验步骤:

  1. 建立原假设和备择假设
  2. 选择适当的检验统计量
  3. 确定显著性水平(通常为 0.05)
  4. 计算检验统计量的值
  5. 做出决策:拒绝或不拒绝原假设

常见的检验类型:

1. z 检验

当总体标准差已知或样本容量较大时使用。

$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$

2. t 检验

当总体标准差未知且样本容量较小时使用。

$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

3. 卡方检验

用于检验分类变量之间的独立性或拟合优度。

💡 假设检验示例

问题: 某工厂声称其生产的灯泡平均寿命为 1000 小时。 从生产线上随机抽取 36 个灯泡,测得平均寿命为 990 小时,标准差为 50 小时。 在 5% 的显著性水平下,能否支持工厂的声称?

解答步骤:

  1. 建立假设:
    $H_0: \mu = 1000$(灯泡平均寿命为 1000 小时)
    $H_1: \mu \neq 1000$(灯泡平均寿命不为 1000 小时)
  2. 选择检验统计量:
    使用 t 检验(总体标准差未知)
  3. 计算 t 值:
    $t = \frac{990 - 1000}{50 / \sqrt{36}} = \frac{-10}{8.33} = -1.2$
  4. 临界值:
    在 $\alpha = 0.05$,自由度为 35 时,$t_{0.025, 35} \approx 2.03$
  5. 决策:
    由于 $|t| = 1.2 < 2.03$,不拒绝原假设
结论: 在 5% 的显著性水平下,样本数据支持工厂的声称, 可以认为灯泡的平均寿命为 1000 小时。

🎯 重要概念

第一类错误和第二类错误

$H_0$ 为真 $H_0$ 为假
拒绝 $H_0$ 第一类错误(假阳性)
$P = \alpha$
正确决策
$P = 1 - \beta$
不拒绝 $H_0$ 正确决策
$P = 1 - \alpha$
第二类错误(假阴性)
$P = \beta$
  • 第一类错误($\alpha$):原假设为真时拒绝原假设的概率
  • 第二类错误($\beta$):原假设为假时不拒绝原假设的概率
  • 检验功效($1-\beta$):正确拒绝错误原假设的概率