统计学基础

📊 什么是统计学？

统计学是收集、分析、解释和展示数据的科学。它帮助我们理解数据中的模式和趋势，做出基于证据的决策。统计学广泛应用于科学研究、商业分析、医疗保健、社会科学等领域。

📈 描述性统计

1. 集中趋势度量

均值 (Mean)

均值是所有数据的总和除以数据的数量。

$$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$$

其中 $\bar{x}$ 是均值，$x_i$ 是每个数据点，$n$ 是数据总数。

中位数 (Median)

中位数是将数据按顺序排列后位于中间位置的值。对于偶数个数据，中位数是中间两个数的平均值。

众数 (Mode)

众数是数据中出现频率最高的值。

2. 离散程度度量

方差 (Variance)

方差衡量数据点与均值的偏离程度。

$$\sigma^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}$$

标准差 (Standard Deviation)

标准差是方差的平方根，与数据具有相同的单位。

$$\sigma = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}}$$

📊 其他常用统计量

3. 位置度量

四分位数 (Quartiles)

将数据分为四个相等的部分，常用 Q1（下四分位数）、Q2（中位数）、Q3（上四分位数）表示。

Q1 (25%)：25% 的数据小于此值
Q2 (50%)：中位数
Q3 (75%)：75% 的数据小于此值

应用：分析收入分布、考试成绩等级划分、箱线图绘制

百分位数 (Percentiles)

将数据分为100个相等的部分，Pₚ 表示有 p% 的数据小于此值。

应用：标准化考试分数排名（如 SAT、GRE）、儿童发育评估、健康指标评估

几何平均数 (Geometric Mean)

n 个正数的乘积的 n 次方根。

$$G = \sqrt[n]{x_1 \times x_2 \times \cdots \times x_n}$$

应用：计算平均增长率（如 GDP 增长、投资回报率）、比率数据的平均值

调和平均数 (Harmonic Mean)

数值倒数的算术平均数的倒数。

$$H = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}$$

应用：计算平均速率（如往返行程）、平均价格（固定预算下）、F-score 评价指标

4. 离散程度度量

极差 (Range)

最大值与最小值之差。

$$R = x_{max} - x_{min}$$

应用：质量控制（监测波动范围）、天气预报（温差分析）、价格区间展示

四分位距 (Interquartile Range, IQR)

上四分位数与下四分位数之差，不受极端值影响。

$$IQR = Q_3 - Q_1$$

应用：检测离群值、稳健的离散程度度量、箱线图的核心指标

变异系数 (Coefficient of Variation, CV)

标准差与均值的比值，用百分比表示。

$$CV = \frac{\sigma}{\mu} \times 100\%$$

应用：比较不同量纲数据的离散程度（如身高与体重）、风险评估、投资组合比较

平均绝对偏差 (Mean Absolute Deviation, MAD)

每个数据点与均值之差的绝对值的平均。

$$MAD = \frac{1}{n}\sum_{i=1}^{n}|x_i - \bar{x}|$$

应用：需求预测误差评估、稳健的离散程度度量、异常检测

5. 分布形状度量

偏度 (Skewness)

衡量数据分布的不对称性。

正偏 (右偏)：偏度 > 0，尾部向右延伸
负偏 (左偏)：偏度 < 0，尾部向左延伸
对称：偏度 ≈ 0，如正态分布

应用：收入分布分析（通常右偏）、投资回报分析、金融风险评估

峰度 (Kurtosis)

衡量数据分布的尖锐程度或平坦程度。

尖峰分布：峰度 > 3，数据更集中在均值附近
平峰分布：峰度 < 3，数据更分散
正态分布：峰度 = 3

应用：金融风险管理（尾部风险分析）、质量控制、信号处理

6. 数据标准化

标准分数 (Z-Score)

表示一个数值与均值之间的距离，以标准差为单位。

$$z = \frac{x - \mu}{\sigma}$$

应用：考试成绩标准化比较、异常值检测（|z| > 3）、机器学习特征标准化

离群值 (Outliers)

与大多数数据显著不同的异常观测值。

检测方法：

四分位距法：小于 Q₁ - 1.5×IQR 或大于 Q₃ + 1.5×IQR
Z-score 法：|z| > 3

应用：欺诈检测、质量控制异常监测、数据清洗、医疗异常诊断

7. 关联性度量

协方差 (Covariance)

衡量两个变量一起变化的程度。

$$Cov(X,Y) = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$$

正值：正相关（一个变量增加，另一个也增加）
负值：负相关（一个变量增加，另一个减少）
零值：无线性关系

应用：投资组合风险评估、经济学变量分析、气象数据关联分析

皮尔逊相关系数 (Pearson Correlation Coefficient)

衡量两个变量之间的线性相关强度，取值范围 [-1, 1]。

$$r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}$$

r = 1：完全正相关
r = -1：完全负相关
r = 0：无线性相关
|r| > 0.7：强相关
0.3 < |r| < 0.7：中等相关
|r| < 0.3：弱相关

应用：市场调研（产品关联度分析）、教育研究（学习时间与成绩关系）、医学研究（风险因素分析）

斯皮尔曼等级相关系数 (Spearman's Rank Correlation)

基于变量秩次的相关系数，用于衡量单调关系。

应用：非线性关系分析、问卷调查满意度排序、体育比赛排名分析

8. 频数分布

频数分布表

将数据按数值大小分组，统计每组中数据出现的次数。

应用：人口年龄结构分析、考试成绩分布、销售数据区间统计

直方图 (Histogram)

用矩形的高度表示各组频数的图形，常用于展示数据分布形态。

应用：数据质量检查、分布模式识别、异常值可视化

箱线图 (Box Plot)

基于五数概括（最小值、Q1、中位数、Q3、最大值）的图形，能清晰展示数据分布和离群值。

应用：多组数据比较、离群值检测、质量控制监控

9. 特殊统计量

标准误差 (Standard Error, SE)

样本统计量的标准差，用于衡量抽样误差的大小。

$$SE = \frac{\sigma}{\sqrt{n}}$$

应用：置信区间计算、假设检验、样本量确定

自由度 (Degrees of Freedom)

统计量中可以自由变化的数据个数。

应用：t 检验、卡方检验、方差分析（ANOVA）中的关键参数

效应量 (Effect Size)

衡量统计显著性的实际意义，表示差异或关联的强度。

应用：元分析、干预效果评估、临床研究（如 Cohen's d）

🧮 交互式计算器

输入一组数据（用逗号分隔），计算各种统计量：

数据（用逗号分隔）：

计算结果：

集中趋势

μ

均值：
M

中位数：
Mo

众数：

G

几何平均：
H

调和平均：

Q1

下四分位：
Q3

上四分位：
IQR

四分位距：

离散程度

σ²

方差：
σ

标准差：
R

极差：

CV

变异系数：
MAD

平均绝对偏差：
SE

标准误差：

分布形状

Skew

偏度：
Kurt

峰度：

标准化数据（Z-Score）

原始数据：

Z-Score：

💡 实际应用

🏢

商业分析： 分析销售数据、客户行为，优化业务决策
🏥

医疗研究： 评估治疗效果、疾病流行趋势
📊

质量控制： 监测生产过程中的产品一致性