统计学基础

📊 什么是统计学?

统计学是收集、分析、解释和展示数据的科学。它帮助我们理解数据中的模式和趋势, 做出基于证据的决策。统计学广泛应用于科学研究、商业分析、医疗保健、社会科学等领域。

📈 描述性统计

1. 集中趋势度量

均值 (Mean)

均值是所有数据的总和除以数据的数量。

$$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$$

其中 $\bar{x}$ 是均值,$x_i$ 是每个数据点,$n$ 是数据总数。

中位数 (Median)

中位数是将数据按顺序排列后位于中间位置的值。对于偶数个数据,中位数是中间两个数的平均值。

众数 (Mode)

众数是数据中出现频率最高的值。

2. 离散程度度量

方差 (Variance)

方差衡量数据点与均值的偏离程度。

$$\sigma^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}$$

标准差 (Standard Deviation)

标准差是方差的平方根,与数据具有相同的单位。

$$\sigma = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}}$$

📊 其他常用统计量

3. 位置度量

四分位数 (Quartiles)

将数据分为四个相等的部分,常用 Q1(下四分位数)、Q2(中位数)、Q3(上四分位数)表示。

  • Q1 (25%):25% 的数据小于此值
  • Q2 (50%):中位数
  • Q3 (75%):75% 的数据小于此值

应用:分析收入分布、考试成绩等级划分、箱线图绘制

百分位数 (Percentiles)

将数据分为100个相等的部分,Pₚ 表示有 p% 的数据小于此值。

应用:标准化考试分数排名(如 SAT、GRE)、儿童发育评估、健康指标评估

几何平均数 (Geometric Mean)

n 个正数的乘积的 n 次方根。

$$G = \sqrt[n]{x_1 \times x_2 \times \cdots \times x_n}$$

应用:计算平均增长率(如 GDP 增长、投资回报率)、比率数据的平均值

调和平均数 (Harmonic Mean)

数值倒数的算术平均数的倒数。

$$H = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}$$

应用:计算平均速率(如往返行程)、平均价格(固定预算下)、F-score 评价指标

4. 离散程度度量

极差 (Range)

最大值与最小值之差。

$$R = x_{max} - x_{min}$$

应用:质量控制(监测波动范围)、天气预报(温差分析)、价格区间展示

四分位距 (Interquartile Range, IQR)

上四分位数与下四分位数之差,不受极端值影响。

$$IQR = Q_3 - Q_1$$

应用:检测离群值、稳健的离散程度度量、箱线图的核心指标

变异系数 (Coefficient of Variation, CV)

标准差与均值的比值,用百分比表示。

$$CV = \frac{\sigma}{\mu} \times 100\%$$

应用:比较不同量纲数据的离散程度(如身高与体重)、风险评估、投资组合比较

平均绝对偏差 (Mean Absolute Deviation, MAD)

每个数据点与均值之差的绝对值的平均。

$$MAD = \frac{1}{n}\sum_{i=1}^{n}|x_i - \bar{x}|$$

应用:需求预测误差评估、稳健的离散程度度量、异常检测

5. 分布形状度量

偏度 (Skewness)

衡量数据分布的不对称性。

  • 正偏 (右偏):偏度 > 0,尾部向右延伸
  • 负偏 (左偏):偏度 < 0,尾部向左延伸
  • 对称:偏度 ≈ 0,如正态分布

应用:收入分布分析(通常右偏)、投资回报分析、金融风险评估

峰度 (Kurtosis)

衡量数据分布的尖锐程度或平坦程度。

  • 尖峰分布:峰度 > 3,数据更集中在均值附近
  • 平峰分布:峰度 < 3,数据更分散
  • 正态分布:峰度 = 3

应用:金融风险管理(尾部风险分析)、质量控制、信号处理

6. 数据标准化

标准分数 (Z-Score)

表示一个数值与均值之间的距离,以标准差为单位。

$$z = \frac{x - \mu}{\sigma}$$

应用:考试成绩标准化比较、异常值检测(|z| > 3)、机器学习特征标准化

离群值 (Outliers)

与大多数数据显著不同的异常观测值。

检测方法:

  • 四分位距法:小于 Q₁ - 1.5×IQR 或大于 Q₃ + 1.5×IQR
  • Z-score 法:|z| > 3

应用:欺诈检测、质量控制异常监测、数据清洗、医疗异常诊断

7. 关联性度量

协方差 (Covariance)

衡量两个变量一起变化的程度。

$$Cov(X,Y) = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$$
  • 正值:正相关(一个变量增加,另一个也增加)
  • 负值:负相关(一个变量增加,另一个减少)
  • 零值:无线性关系

应用:投资组合风险评估、经济学变量分析、气象数据关联分析

皮尔逊相关系数 (Pearson Correlation Coefficient)

衡量两个变量之间的线性相关强度,取值范围 [-1, 1]。

$$r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}$$
  • r = 1:完全正相关
  • r = -1:完全负相关
  • r = 0:无线性相关
  • |r| > 0.7:强相关
  • 0.3 < |r| < 0.7:中等相关
  • |r| < 0.3:弱相关

应用:市场调研(产品关联度分析)、教育研究(学习时间与成绩关系)、医学研究(风险因素分析)

斯皮尔曼等级相关系数 (Spearman's Rank Correlation)

基于变量秩次的相关系数,用于衡量单调关系。

应用:非线性关系分析、问卷调查满意度排序、体育比赛排名分析

8. 频数分布

频数分布表

将数据按数值大小分组,统计每组中数据出现的次数。

应用:人口年龄结构分析、考试成绩分布、销售数据区间统计

直方图 (Histogram)

用矩形的高度表示各组频数的图形,常用于展示数据分布形态。

应用:数据质量检查、分布模式识别、异常值可视化

箱线图 (Box Plot)

基于五数概括(最小值、Q1、中位数、Q3、最大值)的图形,能清晰展示数据分布和离群值。

应用:多组数据比较、离群值检测、质量控制监控

9. 特殊统计量

标准误差 (Standard Error, SE)

样本统计量的标准差,用于衡量抽样误差的大小。

$$SE = \frac{\sigma}{\sqrt{n}}$$

应用:置信区间计算、假设检验、样本量确定

自由度 (Degrees of Freedom)

统计量中可以自由变化的数据个数。

应用:t 检验、卡方检验、方差分析(ANOVA)中的关键参数

效应量 (Effect Size)

衡量统计显著性的实际意义,表示差异或关联的强度。

应用:元分析、干预效果评估、临床研究(如 Cohen's d)

🧮 交互式计算器

输入一组数据(用逗号分隔),计算各种统计量:

💡 实际应用

  • 🏢
    商业分析: 分析销售数据、客户行为,优化业务决策
  • 🏥
    医疗研究: 评估治疗效果、疾病流行趋势
  • 📊
    质量控制: 监测生产过程中的产品一致性