统计推断

🔍 什么是统计推断？

统计推断是根据样本数据对总体特征进行推断的过程。它包括参数估计和假设检验两大类方法。统计推断是统计学最重要的应用领域之一，帮助我们根据有限的样本信息做出关于总体的结论。

📊 参数估计

1. 点估计

点估计是用样本统计量的一个具体数值作为总体参数的估计值。

样本均值 估计总体均值 $\mu$
样本方差 估计总体方差 $\sigma^2$

2. 区间估计（置信区间）

置信区间是参数的一个可能取值范围，该范围以一定的概率（置信水平）包含真实的参数值。

总体均值的置信区间

对于大样本（$n \geq 30$），使用正态分布：

$$\bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}$$

其中：

$\bar{x}$ - 样本均值
$z_{\alpha/2}$ - 标准正态分布的临界值
$s$ - 样本标准差
$n$ - 样本容量

对于小样本（$n < 30$），使用 t 分布：

$$\bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}}$$

🧮 置信区间计算器

输入样本统计量，计算总体均值的置信区间：

样本均值：

样本标准差：

样本容量：

置信水平：

✅ 假设检验

基本概念

假设检验是根据样本数据对关于总体参数的假设进行检验的方法。

假设的类型：

原假设 ($H_0$)：通常表示"没有差异"或"没有效果"
备择假设 ($H_1$)：通常表示"有差异"或"有效果"

检验步骤：

建立原假设和备择假设
选择适当的检验统计量
确定显著性水平（通常为 0.05）
计算检验统计量的值
做出决策：拒绝或不拒绝原假设

常见的检验类型：

1. z 检验

当总体标准差已知或样本容量较大时使用。

$$z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$$

2. t 检验

当总体标准差未知且样本容量较小时使用。

$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

3. 卡方检验

用于检验分类变量之间的独立性或拟合优度。

💡 假设检验示例

问题： 某工厂声称其生产的灯泡平均寿命为 1000 小时。从生产线上随机抽取 36 个灯泡，测得平均寿命为 990 小时，标准差为 50 小时。在 5% 的显著性水平下，能否支持工厂的声称？

解答步骤：

建立假设：
$H_0: \mu = 1000$（灯泡平均寿命为 1000 小时）
$H_1: \mu \neq 1000$（灯泡平均寿命不为 1000 小时）
选择检验统计量：
使用 t 检验（总体标准差未知）
计算 t 值：
$t = \frac{990 - 1000}{50 / \sqrt{36}} = \frac{-10}{8.33} = -1.2$
临界值：
在 $\alpha = 0.05$，自由度为 35 时，$t_{0.025, 35} \approx 2.03$
决策：
由于 $|t| = 1.2 < 2.03$，不拒绝原假设

结论： 在 5% 的显著性水平下，样本数据支持工厂的声称，可以认为灯泡的平均寿命为 1000 小时。

🎯 重要概念

第一类错误和第二类错误

	$H_0$ 为真	$H_0$ 为假
拒绝 $H_0$	第一类错误（假阳性） $P = \alpha$	正确决策 $P = 1 - \beta$
不拒绝 $H_0$	正确决策 $P = 1 - \alpha$	第二类错误（假阴性） $P = \beta$

第一类错误（$\alpha$）：原假设为真时拒绝原假设的概率
第二类错误（$\beta$）：原假设为假时不拒绝原假设的概率
检验功效（$1-\beta$）：正确拒绝错误原假设的概率