统计学基础
📊 什么是统计学?
统计学是收集、分析、解释和展示数据的科学。它帮助我们理解数据中的模式和趋势, 做出基于证据的决策。统计学广泛应用于科学研究、商业分析、医疗保健、社会科学等领域。
📈 描述性统计
| 类别 | 统计量 | 公式 | 特点 | 适用场景 |
|---|---|---|---|---|
| 集中趋势 | 均值 | $\bar{x} = \frac{\sum x_i}{n}$ | 易受极端值影响 | 对称分布数据 |
| 中位数 | 排序后中间值 | 稳健,不受极端值影响 | 偏态分布、有异常值 | |
| 众数 | 出现频率最高的值 | 可用于分类数据 | 分类数据、离散数据 | |
| 离散程度 | 方差 | $\sigma^2 = \frac{\sum(x_i-\bar{x})^2}{n}$ | 单位是原数据平方 | 统计分析基础 |
| 标准差 | $\sigma = \sqrt{\text{方差}}$ | 与原数据单位相同 | 最常用的离散度量 | |
| 变异系数 | $CV = \frac{\sigma}{\mu} \times 100\%$ | 无量纲,可比较不同数据 | 比较不同量纲数据 |
1. 集中趋势度量
均值 (Mean)
均值是所有数据的总和除以数据的数量。
其中 $\bar{x}$ 是均值,$x_i$ 是每个数据点,$n$ 是数据总数。
中位数 (Median)
中位数是将数据按顺序排列后位于中间位置的值。对于偶数个数据,中位数是中间两个数的平均值。
众数 (Mode)
众数是数据中出现频率最高的值。
2. 离散程度度量
方差 (Variance)
方差衡量数据点与均值的偏离程度。
标准差 (Standard Deviation)
标准差是方差的平方根,与数据具有相同的单位。
📊 其他常用统计量
3. 位置度量
四分位数 (Quartiles)
将数据分为四个相等的部分,常用 Q1(下四分位数)、Q2(中位数)、Q3(上四分位数)表示。
- Q1 (25%):25% 的数据小于此值
- Q2 (50%):中位数
- Q3 (75%):75% 的数据小于此值
应用:分析收入分布、考试成绩等级划分、箱线图绘制
百分位数 (Percentiles)
将数据分为100个相等的部分,Pₚ 表示有 p% 的数据小于此值。
应用:标准化考试分数排名(如 SAT、GRE)、儿童发育评估、健康指标评估
几何平均数 (Geometric Mean)
n 个正数的乘积的 n 次方根。
应用:计算平均增长率(如 GDP 增长、投资回报率)、比率数据的平均值
调和平均数 (Harmonic Mean)
数值倒数的算术平均数的倒数。
应用:计算平均速率(如往返行程)、平均价格(固定预算下)、F-score 评价指标
4. 离散程度度量
极差 (Range)
最大值与最小值之差。
应用:质量控制(监测波动范围)、天气预报(温差分析)、价格区间展示
四分位距 (Interquartile Range, IQR)
上四分位数与下四分位数之差,不受极端值影响。
应用:检测离群值、稳健的离散程度度量、箱线图的核心指标
变异系数 (Coefficient of Variation, CV)
标准差与均值的比值,用百分比表示。
应用:比较不同量纲数据的离散程度(如身高与体重)、风险评估、投资组合比较
平均绝对偏差 (Mean Absolute Deviation, MAD)
每个数据点与均值之差的绝对值的平均。
应用:需求预测误差评估、稳健的离散程度度量、异常检测
5. 分布形状度量
偏度 (Skewness)
衡量数据分布的不对称性。
- 正偏 (右偏):偏度 > 0,尾部向右延伸
- 负偏 (左偏):偏度 < 0,尾部向左延伸
- 对称:偏度 ≈ 0,如正态分布
应用:收入分布分析(通常右偏)、投资回报分析、金融风险评估
峰度 (Kurtosis)
衡量数据分布的尖锐程度或平坦程度。
- 尖峰分布:峰度 > 3,数据更集中在均值附近
- 平峰分布:峰度 < 3,数据更分散
- 正态分布:峰度 = 3
应用:金融风险管理(尾部风险分析)、质量控制、信号处理
6. 数据标准化
标准分数 (Z-Score)
表示一个数值与均值之间的距离,以标准差为单位。
应用:考试成绩标准化比较、异常值检测(|z| > 3)、机器学习特征标准化
离群值 (Outliers)
与大多数数据显著不同的异常观测值。
检测方法:
- 四分位距法:小于 Q₁ - 1.5×IQR 或大于 Q₃ + 1.5×IQR
- Z-score 法:|z| > 3
应用:欺诈检测、质量控制异常监测、数据清洗、医疗异常诊断
7. 关联性度量
协方差 (Covariance)
衡量两个变量一起变化的程度。
- 正值:正相关(一个变量增加,另一个也增加)
- 负值:负相关(一个变量增加,另一个减少)
- 零值:无线性关系
应用:投资组合风险评估、经济学变量分析、气象数据关联分析
皮尔逊相关系数 (Pearson Correlation Coefficient)
衡量两个变量之间的线性相关强度,取值范围 [-1, 1]。
- r = 1:完全正相关
- r = -1:完全负相关
- r = 0:无线性相关
- |r| > 0.7:强相关
- 0.3 < |r| < 0.7:中等相关
- |r| < 0.3:弱相关
应用:市场调研(产品关联度分析)、教育研究(学习时间与成绩关系)、医学研究(风险因素分析)
斯皮尔曼等级相关系数 (Spearman's Rank Correlation)
基于变量秩次的相关系数,用于衡量单调关系。
应用:非线性关系分析、问卷调查满意度排序、体育比赛排名分析
8. 频数分布
频数分布表
将数据按数值大小分组,统计每组中数据出现的次数。
应用:人口年龄结构分析、考试成绩分布、销售数据区间统计
直方图 (Histogram)
用矩形的高度表示各组频数的图形,常用于展示数据分布形态。
应用:数据质量检查、分布模式识别、异常值可视化
箱线图 (Box Plot)
基于五数概括(最小值、Q1、中位数、Q3、最大值)的图形,能清晰展示数据分布和离群值。
应用:多组数据比较、离群值检测、质量控制监控
9. 特殊统计量
标准误差 (Standard Error, SE)
样本统计量的标准差,用于衡量抽样误差的大小。
应用:置信区间计算、假设检验、样本量确定
自由度 (Degrees of Freedom)
统计量中可以自由变化的数据个数。
应用:t 检验、卡方检验、方差分析(ANOVA)中的关键参数
效应量 (Effect Size)
衡量统计显著性的实际意义,表示差异或关联的强度。
应用:元分析、干预效果评估、临床研究(如 Cohen's d)
📐 高级描述性统计
9. 矩 (Moments)
k 阶原点矩
描述随机变量关于原点的分布特征:
k=1 时为均值,k=2 时为原点二阶矩。
k 阶中心矩
描述随机变量关于均值的分布特征:
- k=2:方差
- k=3:偏度(反映对称性)
- k=4:峰度(反映尖锐程度)
应用:分布形状分析、高阶统计特征提取、信号处理
样本矩与总体矩
样本矩用于估计总体矩,是矩估计法的基础:
应用:参数估计、分布拟合、统计推断
10. 分位数函数 (Quantile Function)
分位数定义
对于概率 p,p 分位数 Q(p) 满足:
其中 F(x) 是累积分布函数。
样本分位数计算方法
常用的分位数计算方法有 9 种(R 语言中 type=1 到 type=9):
其中 j = \lfloor (n-1)p \rfloor + 1,γ = (n-1)p - j + 1。
应用:风险价值计算、百分位数排名、箱线图绘制
重要分位数
- 中位数:0.5 分位数,Q(0.5)
- 四分位数:Q(0.25), Q(0.5), Q(0.75)
- 十分位数:Q(0.1), Q(0.2), ..., Q(0.9)
- 百分位数:Q(0.01), Q(0.02), ..., Q(0.99)
11. 累积分布与经验分布
经验累积分布函数 (ECDF)
基于样本数据的累积分布函数估计:
其中 I(·) 是指示函数。
性质:
- 单调不减
- 右连续
- 在数据点处跳跃,跳跃高度为 1/n
- 一致收敛到真实 CDF(Glivenko-Cantelli 定理)
应用:分布检验、置信区间构造、非参数统计
分位数-分位数图 (Q-Q Plot)
用于检验数据是否服从特定分布:
应用:正态性检验、分布比较、异常值识别
概率-概率图 (P-P Plot)
用于比较两个累积分布函数:
应用:分布拟合优度检验、模型诊断
12. 密度估计
直方图密度估计
最简单的密度估计方法:
其中 h 是带宽(箱宽),n 是样本量。
缺点:不连续,受带宽选择影响大
核密度估计 (Kernel Density Estimation, KDE)
使用核函数平滑直方图:
常用核函数:
- 高斯核:K(u) = 12πe-u2/2
- Epanechnikov 核:K(u) = 34(1-u2) for |u| ≤ 1
- 三角核:K(u) = 1 - |u| for |u| ≤ 1
带宽选择:
- Silverman 法则:h = 1.06σ̂n-1/5
- 交叉验证法
应用:数据可视化、模式识别、非参数统计推断
13. 数据变换
Box-Cox 变换
用于使数据更接近正态分布:
参数选择:通过最大似然估计选择 λ
应用:方差稳定化、正态化、回归分析预处理
Yeo-Johnson 变换
Box-Cox 变换的扩展,允许负值:
应用:处理含负值数据、机器学习特征工程
对数变换
用于处理右偏数据:
其中 c 是常数,用于处理零值或负值。
应用:收入数据分析、金融数据分析、乘性模型
14. 多元描述性统计
均值向量
多元数据的中心位置:
x̄2
\vdots
x̄p)
协方差矩阵
描述变量间的协方差结构:
s21 s22 \cdots s2p
\vdots \vdots \ddots \vdots
sp1 sp2 \cdots spp)
其中 sjk = 1n∑i=1n(xij - x̄j)(xik - x̄k)
相关矩阵
描述变量间的相关性:
r21 1 \cdots r2p
\vdots \vdots \ddots \vdots
rp1 rp2 \cdots 1)
其中 rjk = sjksjjskk
应用:主成分分析、因子分析、多重共线性诊断
广义方差
协方差矩阵的行列式,衡量多元数据的离散程度:
应用:多元质量控制、马氏距离计算
马氏距离 (Mahalanobis Distance)
考虑协方差结构的距离度量:
特点:对变量的尺度变化和相关性不敏感
应用:多元异常值检测、模式识别、分类问题
15. 稳健统计量
中位数绝对偏差 (Median Absolute Deviation, MAD)
基于中位数的离散程度度量,对离群值稳健:
与标准差的关系:σ ≈ 1.4826 × MAD(对于正态分布)
应用:稳健的异常值检测、质量控制
截尾均值 (Trimmed Mean)
去除一定比例极值后的均值:
其中 k = \lfloor α n \rfloor,x(i) 是有序样本。
应用:体育比赛评分(去除最高最低分)、收入数据分析
Winsorized 均值
将极值替换为边界值后的均值:
应用:稳健的集中趋势估计、金融数据分析
16. 时间序列描述性统计
自协方差函数
衡量时间序列在不同时滞下的相关性:
应用:时间序列分析、季节性检测
自相关函数 (ACF)
标准化的自协方差:
应用:自相关检验、模型识别(ARIMA)
偏自相关函数 (PACF)
控制中间滞后后的相关性:
应用:AR 模型阶数确定、时间序列建模
🧮 交互式计算器
输入一组数据(用逗号分隔),计算各种统计量:
🛡️ 鲁棒统计量(Robust Statistics)
什么是鲁棒统计量?
鲁棒统计量对离群值不敏感,即使数据中存在极端值也能保持稳定。 在数据质量不确定时,鲁棒统计量比传统统计量更可靠。
常见鲁棒统计量
1. 中位数绝对偏差(Median Absolute Deviation, MAD)
数据点与中位数偏差的绝对值的中位数:
优点:不受离群值影响,比标准差更稳健
2. 截尾均值(Trimmed Mean)
去除一定比例的极端值后的均值:
常见的是 5% 或 10% 截尾均值
3. Winzorized 均值
将一定比例的极端值替换为剩余值的边界值,然后计算均值
优点:保留了样本量,比截尾均值更常用
🔄 数据变换(Data Transformation)
为什么需要数据变换?
- 使数据更接近正态分布
- 稳定方差(方差齐性)
- 改善线性关系
- 减少离群值的影响
常见变换方法
1. 对数变换(Log Transformation)
适用于右偏数据、乘性模型:
c 是常数,用于处理零值或负值
应用:收入分析、金融数据、微生物计数
2. 平方根变换(Square Root Transformation)
适用于计数数据(泊松分布):
应用:事件计数、缺陷数量、放射性衰变
3. 倒数变换(Reciprocal Transformation)
适用于高度右偏数据:
应用:反应时间、电阻值、某些物理测量
4. Box-Cox 变换
自动寻找最优变换参数 λ:
优点:通过最大似然估计自动选择 λ
📐 多变量描述统计
协方差矩阵(Covariance Matrix)
描述多个变量之间的协方差结构:
相关矩阵(Correlation Matrix)
描述多个变量之间的线性相关强度:
r21 1 ··· r2p
⋮ ⋮ ⋱ ⋮
rp1 rp2 ··· 1)
马氏距离(Mahalanobis Distance)
考虑协方差结构的距离度量:
应用:多元离群值检测、模式识别、质量控制
💡 实际应用
-
商业分析: 分析销售数据、客户行为,优化业务决策
-
医疗研究: 评估治疗效果、疾病流行趋势
-
质量控制: 监测生产过程中的产品一致性