统计学基础

📊 什么是统计学?

统计学是收集、分析、解释和展示数据的科学。它帮助我们理解数据中的模式和趋势, 做出基于证据的决策。统计学广泛应用于科学研究、商业分析、医疗保健、社会科学等领域。

📈 描述性统计

📊 描述性统计
集中趋势
均值
中位数
众数
离散程度
方差
标准差
极差
分布形状
偏度
峰度
类别 统计量 公式 特点 适用场景
集中趋势 均值 $\bar{x} = \frac{\sum x_i}{n}$ 易受极端值影响 对称分布数据
中位数 排序后中间值 稳健,不受极端值影响 偏态分布、有异常值
众数 出现频率最高的值 可用于分类数据 分类数据、离散数据
离散程度 方差 $\sigma^2 = \frac{\sum(x_i-\bar{x})^2}{n}$ 单位是原数据平方 统计分析基础
标准差 $\sigma = \sqrt{\text{方差}}$ 与原数据单位相同 最常用的离散度量
变异系数 $CV = \frac{\sigma}{\mu} \times 100\%$ 无量纲,可比较不同数据 比较不同量纲数据

1. 集中趋势度量

均值 (Mean)

均值是所有数据的总和除以数据的数量。

$$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$$

其中 $\bar{x}$ 是均值,$x_i$ 是每个数据点,$n$ 是数据总数。

中位数 (Median)

中位数是将数据按顺序排列后位于中间位置的值。对于偶数个数据,中位数是中间两个数的平均值。

众数 (Mode)

众数是数据中出现频率最高的值。

2. 离散程度度量

方差 (Variance)

方差衡量数据点与均值的偏离程度。

σ2 = i=1n (xi - )2n

标准差 (Standard Deviation)

标准差是方差的平方根,与数据具有相同的单位。

σ = i=1n (xi - )2{n}}

📊 其他常用统计量

3. 位置度量

四分位数 (Quartiles)

将数据分为四个相等的部分,常用 Q1(下四分位数)、Q2(中位数)、Q3(上四分位数)表示。

  • Q1 (25%):25% 的数据小于此值
  • Q2 (50%):中位数
  • Q3 (75%):75% 的数据小于此值

应用:分析收入分布、考试成绩等级划分、箱线图绘制

百分位数 (Percentiles)

将数据分为100个相等的部分,Pₚ 表示有 p% 的数据小于此值。

应用:标准化考试分数排名(如 SAT、GRE)、儿童发育评估、健康指标评估

几何平均数 (Geometric Mean)

n 个正数的乘积的 n 次方根。

G = nx1 × x2 × \cdots × xn

应用:计算平均增长率(如 GDP 增长、投资回报率)、比率数据的平均值

调和平均数 (Harmonic Mean)

数值倒数的算术平均数的倒数。

H = n1{x1} + 1x2 + \cdots + 1xn}

应用:计算平均速率(如往返行程)、平均价格(固定预算下)、F-score 评价指标

4. 离散程度度量

极差 (Range)

最大值与最小值之差。

R = xmax - xmin

应用:质量控制(监测波动范围)、天气预报(温差分析)、价格区间展示

四分位距 (Interquartile Range, IQR)

上四分位数与下四分位数之差,不受极端值影响。

IQR = Q3 - Q1

应用:检测离群值、稳健的离散程度度量、箱线图的核心指标

变异系数 (Coefficient of Variation, CV)

标准差与均值的比值,用百分比表示。

CV = σμ × 100\%

应用:比较不同量纲数据的离散程度(如身高与体重)、风险评估、投资组合比较

平均绝对偏差 (Mean Absolute Deviation, MAD)

每个数据点与均值之差的绝对值的平均。

MAD = 1ni=1n|xi - |

应用:需求预测误差评估、稳健的离散程度度量、异常检测

5. 分布形状度量

偏度 (Skewness)

衡量数据分布的不对称性。

  • 正偏 (右偏):偏度 > 0,尾部向右延伸
  • 负偏 (左偏):偏度 < 0,尾部向左延伸
  • 对称:偏度 ≈ 0,如正态分布

应用:收入分布分析(通常右偏)、投资回报分析、金融风险评估

峰度 (Kurtosis)

衡量数据分布的尖锐程度或平坦程度。

  • 尖峰分布:峰度 > 3,数据更集中在均值附近
  • 平峰分布:峰度 < 3,数据更分散
  • 正态分布:峰度 = 3

应用:金融风险管理(尾部风险分析)、质量控制、信号处理

6. 数据标准化

标准分数 (Z-Score)

表示一个数值与均值之间的距离,以标准差为单位。

z = x - μσ

应用:考试成绩标准化比较、异常值检测(|z| > 3)、机器学习特征标准化

离群值 (Outliers)

与大多数数据显著不同的异常观测值。

检测方法:

  • 四分位距法:小于 Q₁ - 1.5×IQR 或大于 Q₃ + 1.5×IQR
  • Z-score 法:|z| > 3

应用:欺诈检测、质量控制异常监测、数据清洗、医疗异常诊断

7. 关联性度量

协方差 (Covariance)

衡量两个变量一起变化的程度。

Cov(X,Y) = 1ni=1n(xi - )(yi - )
  • 正值:正相关(一个变量增加,另一个也增加)
  • 负值:负相关(一个变量增加,另一个减少)
  • 零值:无线性关系

应用:投资组合风险评估、经济学变量分析、气象数据关联分析

皮尔逊相关系数 (Pearson Correlation Coefficient)

衡量两个变量之间的线性相关强度,取值范围 [-1, 1]。

r = i=1n(xi - )(yi - )i=1n(xi - )2i=1n(yi - )2
  • r = 1:完全正相关
  • r = -1:完全负相关
  • r = 0:无线性相关
  • |r| > 0.7:强相关
  • 0.3 < |r| < 0.7:中等相关
  • |r| < 0.3:弱相关

应用:市场调研(产品关联度分析)、教育研究(学习时间与成绩关系)、医学研究(风险因素分析)

斯皮尔曼等级相关系数 (Spearman's Rank Correlation)

基于变量秩次的相关系数,用于衡量单调关系。

应用:非线性关系分析、问卷调查满意度排序、体育比赛排名分析

8. 频数分布

正态分布 35%
右偏分布 30%
左偏分布 20%
其他分布 15%

频数分布表

将数据按数值大小分组,统计每组中数据出现的次数。

应用:人口年龄结构分析、考试成绩分布、销售数据区间统计

直方图 (Histogram)

用矩形的高度表示各组频数的图形,常用于展示数据分布形态。

应用:数据质量检查、分布模式识别、异常值可视化

箱线图 (Box Plot)

基于五数概括(最小值、Q1、中位数、Q3、最大值)的图形,能清晰展示数据分布和离群值。

应用:多组数据比较、离群值检测、质量控制监控

9. 特殊统计量

标准误差 (Standard Error, SE)

样本统计量的标准差,用于衡量抽样误差的大小。

SE = σn

应用:置信区间计算、假设检验、样本量确定

自由度 (Degrees of Freedom)

统计量中可以自由变化的数据个数。

应用:t 检验、卡方检验、方差分析(ANOVA)中的关键参数

效应量 (Effect Size)

衡量统计显著性的实际意义,表示差异或关联的强度。

应用:元分析、干预效果评估、临床研究(如 Cohen's d)

📐 高级描述性统计

9. 矩 (Moments)

k 阶原点矩

描述随机变量关于原点的分布特征:

mk = 1ni=1nxik

k=1 时为均值,k=2 时为原点二阶矩。

k 阶中心矩

描述随机变量关于均值的分布特征:

μk = 1ni=1n(xi - )k
  • k=2:方差
  • k=3:偏度(反映对称性)
  • k=4:峰度(反映尖锐程度)

应用:分布形状分析、高阶统计特征提取、信号处理

样本矩与总体矩

样本矩用于估计总体矩,是矩估计法的基础:

k = 1ni=1nXik \xrightarrow{P} E[Xk]

应用:参数估计、分布拟合、统计推断

10. 分位数函数 (Quantile Function)

分位数定义

对于概率 p,p 分位数 Q(p) 满足:

F(Q(p)) = P(X Q(p)) = p

其中 F(x) 是累积分布函数。

样本分位数计算方法

常用的分位数计算方法有 9 种(R 语言中 type=1 到 type=9):

Q(p) = (1-γ)x(j) + γ x(j+1)

其中 j = \lfloor (n-1)p \rfloor + 1γ = (n-1)p - j + 1

应用:风险价值计算、百分位数排名、箱线图绘制

重要分位数

  • 中位数:0.5 分位数,Q(0.5)
  • 四分位数:Q(0.25), Q(0.5), Q(0.75)
  • 十分位数:Q(0.1), Q(0.2), ..., Q(0.9)
  • 百分位数:Q(0.01), Q(0.02), ..., Q(0.99)

11. 累积分布与经验分布

经验累积分布函数 (ECDF)

基于样本数据的累积分布函数估计:

n(x) = 1ni=1nI(xi x)

其中 I(·) 是指示函数。

性质:

  • 单调不减
  • 右连续
  • 在数据点处跳跃,跳跃高度为 1/n
  • 一致收敛到真实 CDF(Glivenko-Cantelli 定理)

应用:分布检验、置信区间构造、非参数统计

分位数-分位数图 (Q-Q Plot)

用于检验数据是否服从特定分布:

绘制点: (Qempirical(p), Qtheoretical(p))

应用:正态性检验、分布比较、异常值识别

概率-概率图 (P-P Plot)

用于比较两个累积分布函数:

绘制点: (F1(x), F2(x))

应用:分布拟合优度检验、模型诊断

12. 密度估计

直方图密度估计

最简单的密度估计方法:

(x) = 1nhi=1nI(xi - xh 12)

其中 h 是带宽(箱宽),n 是样本量。

缺点:不连续,受带宽选择影响大

核密度估计 (Kernel Density Estimation, KDE)

使用核函数平滑直方图:

h(x) = 1nhi=1nK(x - xih)

常用核函数:

  • 高斯核:K(u) = 12πe-u2/2
  • Epanechnikov 核:K(u) = 34(1-u2) for |u| ≤ 1
  • 三角核:K(u) = 1 - |u| for |u| ≤ 1

带宽选择:

  • Silverman 法则:h = 1.06σ̂n-1/5
  • 交叉验证法

应用:数据可视化、模式识别、非参数统计推断

13. 数据变换

Box-Cox 变换

用于使数据更接近正态分布:

y(λ) = x^λ - 1λλ 0ln(x)λ = 0

参数选择:通过最大似然估计选择 λ

应用:方差稳定化、正态化、回归分析预处理

Yeo-Johnson 变换

Box-Cox 变换的扩展,允许负值:

ψ(y,λ) = (y+1)^λ - 1λλ 0, y 0ln(y+1)λ = 0, y 0(-y+1)2-λ - 12-λλ 2, y < 0-ln(-y+1)λ = 2, y < 0

应用:处理含负值数据、机器学习特征工程

对数变换

用于处理右偏数据:

y = ln(x + c)

其中 c 是常数,用于处理零值或负值。

应用:收入数据分析、金融数据分析、乘性模型

14. 多元描述性统计

均值向量

多元数据的中心位置:

\mathbf{x̄} = 1ni=1n\mathbf{x}i = (1
2
\vdots
p)

协方差矩阵

描述变量间的协方差结构:

\mathbf{S} = 1ni=1n(\mathbf{x}i - \mathbf{x̄})(\mathbf{x}i - \mathbf{x̄})T = (s11  s12  \cdots  s1p
s21  s22  \cdots  s2p
\vdots  \vdots  \ddots  \vdots
sp1  sp2  \cdots  spp)

其中 sjk = 1ni=1n(xij - j)(xik - k)

相关矩阵

描述变量间的相关性:

\mathbf{R} = (1  r12  \cdots  r1p
r21  1  \cdots  r2p
\vdots  \vdots  \ddots  \vdots
rp1  rp2  \cdots  1)

其中 rjk = sjksjjskk

应用:主成分分析、因子分析、多重共线性诊断

广义方差

协方差矩阵的行列式,衡量多元数据的离散程度:

|\mathbf{S}| = \det(\mathbf{S})

应用:多元质量控制、马氏距离计算

马氏距离 (Mahalanobis Distance)

考虑协方差结构的距离度量:

D2(\mathbf{x}, \boldsymbol{μ}) = (\mathbf{x} - \boldsymbol{μ})T\mathbf{S}-1(\mathbf{x} - \boldsymbol{μ})

特点:对变量的尺度变化和相关性不敏感

应用:多元异常值检测、模式识别、分类问题

15. 稳健统计量

中位数绝对偏差 (Median Absolute Deviation, MAD)

基于中位数的离散程度度量,对离群值稳健:

MAD = median(|xi - median(x)|)

与标准差的关系:σ 1.4826 × MAD(对于正态分布)

应用:稳健的异常值检测、质量控制

截尾均值 (Trimmed Mean)

去除一定比例极值后的均值:

α = 1n(1-2α)i=k+1n-kx(i)

其中 k = \lfloor α n \rfloorx(i) 是有序样本。

应用:体育比赛评分(去除最高最低分)、收入数据分析

Winsorized 均值

将极值替换为边界值后的均值:

w = 1n(kx(k+1) + i=k+1n-kx(i) + kx(n-k))

应用:稳健的集中趋势估计、金融数据分析

16. 时间序列描述性统计

自协方差函数

衡量时间序列在不同时滞下的相关性:

γ(k) = 1nt=k+1n(xt - )(xt-k - )

应用:时间序列分析、季节性检测

自相关函数 (ACF)

标准化的自协方差:

ρ(k) = γ(k)γ(0) = t=k+1n(xt - )(xt-k - )t=1n(xt - )2

应用:自相关检验、模型识别(ARIMA)

偏自相关函数 (PACF)

控制中间滞后后的相关性:

φkk = Corr(xt, xt-k | xt-1, \ldots, xt-k+1)

应用:AR 模型阶数确定、时间序列建模

🧮 交互式计算器

输入一组数据(用逗号分隔),计算各种统计量:

🛡️ 鲁棒统计量(Robust Statistics)

什么是鲁棒统计量?

鲁棒统计量对离群值不敏感,即使数据中存在极端值也能保持稳定。 在数据质量不确定时,鲁棒统计量比传统统计量更可靠。

常见鲁棒统计量

1. 中位数绝对偏差(Median Absolute Deviation, MAD)

数据点与中位数偏差的绝对值的中位数:

MAD = median(|xi - median(X)|)

优点:不受离群值影响,比标准差更稳健

2. 截尾均值(Trimmed Mean)

去除一定比例的极端值后的均值:

trimmed = i=k+1n-k x(i)n - 2k

常见的是 5% 或 10% 截尾均值

3. Winzorized 均值

将一定比例的极端值替换为剩余值的边界值,然后计算均值

优点:保留了样本量,比截尾均值更常用

🔄 数据变换(Data Transformation)

为什么需要数据变换?

  • 使数据更接近正态分布
  • 稳定方差(方差齐性)
  • 改善线性关系
  • 减少离群值的影响

常见变换方法

1. 对数变换(Log Transformation)

适用于右偏数据、乘性模型:

y' = log(x + c)

c 是常数,用于处理零值或负值

应用:收入分析、金融数据、微生物计数

2. 平方根变换(Square Root Transformation)

适用于计数数据(泊松分布):

y' = x

应用:事件计数、缺陷数量、放射性衰变

3. 倒数变换(Reciprocal Transformation)

适用于高度右偏数据:

y' = 1x

应用:反应时间、电阻值、某些物理测量

4. Box-Cox 变换

自动寻找最优变换参数 λ:

y' = xλ - 1λλ ≠ 0ln(x)λ = 0

优点:通过最大似然估计自动选择 λ

📐 多变量描述统计

协方差矩阵(Covariance Matrix)

描述多个变量之间的协方差结构:

\mathbf{S} = 1n-1i=1n(\mathbf{x}i - \mathbf{x̄})(\mathbf{x}i - \mathbf{x̄)T

相关矩阵(Correlation Matrix)

描述多个变量之间的线性相关强度:

\mathbf{R} = (1   r12   ···   r1p
r21   1   ···   r2p
⋮   ⋮   ⋱   ⋮
rp1   rp2   ···   1)

马氏距离(Mahalanobis Distance)

考虑协方差结构的距离度量:

DM(\mathbf{x}) = (\mathbf{x} - \mathbf{x̄)T\mathbf{S}-1(\mathbf{x} - \mathbf{x̄)

应用:多元离群值检测、模式识别、质量控制

💡 实际应用

  • 🏢
    商业分析: 分析销售数据、客户行为,优化业务决策
  • 🏥
    医疗研究: 评估治疗效果、疾病流行趋势
  • 📊
    质量控制: 监测生产过程中的产品一致性