统计学基础
📊 什么是统计学?
统计学是收集、分析、解释和展示数据的科学。它帮助我们理解数据中的模式和趋势, 做出基于证据的决策。统计学广泛应用于科学研究、商业分析、医疗保健、社会科学等领域。
📈 描述性统计
1. 集中趋势度量
均值 (Mean)
均值是所有数据的总和除以数据的数量。
其中 $\bar{x}$ 是均值,$x_i$ 是每个数据点,$n$ 是数据总数。
中位数 (Median)
中位数是将数据按顺序排列后位于中间位置的值。对于偶数个数据,中位数是中间两个数的平均值。
众数 (Mode)
众数是数据中出现频率最高的值。
2. 离散程度度量
方差 (Variance)
方差衡量数据点与均值的偏离程度。
标准差 (Standard Deviation)
标准差是方差的平方根,与数据具有相同的单位。
📊 其他常用统计量
3. 位置度量
四分位数 (Quartiles)
将数据分为四个相等的部分,常用 Q1(下四分位数)、Q2(中位数)、Q3(上四分位数)表示。
- Q1 (25%):25% 的数据小于此值
- Q2 (50%):中位数
- Q3 (75%):75% 的数据小于此值
应用:分析收入分布、考试成绩等级划分、箱线图绘制
百分位数 (Percentiles)
将数据分为100个相等的部分,Pₚ 表示有 p% 的数据小于此值。
应用:标准化考试分数排名(如 SAT、GRE)、儿童发育评估、健康指标评估
几何平均数 (Geometric Mean)
n 个正数的乘积的 n 次方根。
应用:计算平均增长率(如 GDP 增长、投资回报率)、比率数据的平均值
调和平均数 (Harmonic Mean)
数值倒数的算术平均数的倒数。
应用:计算平均速率(如往返行程)、平均价格(固定预算下)、F-score 评价指标
4. 离散程度度量
极差 (Range)
最大值与最小值之差。
应用:质量控制(监测波动范围)、天气预报(温差分析)、价格区间展示
四分位距 (Interquartile Range, IQR)
上四分位数与下四分位数之差,不受极端值影响。
应用:检测离群值、稳健的离散程度度量、箱线图的核心指标
变异系数 (Coefficient of Variation, CV)
标准差与均值的比值,用百分比表示。
应用:比较不同量纲数据的离散程度(如身高与体重)、风险评估、投资组合比较
平均绝对偏差 (Mean Absolute Deviation, MAD)
每个数据点与均值之差的绝对值的平均。
应用:需求预测误差评估、稳健的离散程度度量、异常检测
5. 分布形状度量
偏度 (Skewness)
衡量数据分布的不对称性。
- 正偏 (右偏):偏度 > 0,尾部向右延伸
- 负偏 (左偏):偏度 < 0,尾部向左延伸
- 对称:偏度 ≈ 0,如正态分布
应用:收入分布分析(通常右偏)、投资回报分析、金融风险评估
峰度 (Kurtosis)
衡量数据分布的尖锐程度或平坦程度。
- 尖峰分布:峰度 > 3,数据更集中在均值附近
- 平峰分布:峰度 < 3,数据更分散
- 正态分布:峰度 = 3
应用:金融风险管理(尾部风险分析)、质量控制、信号处理
6. 数据标准化
标准分数 (Z-Score)
表示一个数值与均值之间的距离,以标准差为单位。
应用:考试成绩标准化比较、异常值检测(|z| > 3)、机器学习特征标准化
离群值 (Outliers)
与大多数数据显著不同的异常观测值。
检测方法:
- 四分位距法:小于 Q₁ - 1.5×IQR 或大于 Q₃ + 1.5×IQR
- Z-score 法:|z| > 3
应用:欺诈检测、质量控制异常监测、数据清洗、医疗异常诊断
7. 关联性度量
协方差 (Covariance)
衡量两个变量一起变化的程度。
- 正值:正相关(一个变量增加,另一个也增加)
- 负值:负相关(一个变量增加,另一个减少)
- 零值:无线性关系
应用:投资组合风险评估、经济学变量分析、气象数据关联分析
皮尔逊相关系数 (Pearson Correlation Coefficient)
衡量两个变量之间的线性相关强度,取值范围 [-1, 1]。
- r = 1:完全正相关
- r = -1:完全负相关
- r = 0:无线性相关
- |r| > 0.7:强相关
- 0.3 < |r| < 0.7:中等相关
- |r| < 0.3:弱相关
应用:市场调研(产品关联度分析)、教育研究(学习时间与成绩关系)、医学研究(风险因素分析)
斯皮尔曼等级相关系数 (Spearman's Rank Correlation)
基于变量秩次的相关系数,用于衡量单调关系。
应用:非线性关系分析、问卷调查满意度排序、体育比赛排名分析
8. 频数分布
频数分布表
将数据按数值大小分组,统计每组中数据出现的次数。
应用:人口年龄结构分析、考试成绩分布、销售数据区间统计
直方图 (Histogram)
用矩形的高度表示各组频数的图形,常用于展示数据分布形态。
应用:数据质量检查、分布模式识别、异常值可视化
箱线图 (Box Plot)
基于五数概括(最小值、Q1、中位数、Q3、最大值)的图形,能清晰展示数据分布和离群值。
应用:多组数据比较、离群值检测、质量控制监控
9. 特殊统计量
标准误差 (Standard Error, SE)
样本统计量的标准差,用于衡量抽样误差的大小。
应用:置信区间计算、假设检验、样本量确定
自由度 (Degrees of Freedom)
统计量中可以自由变化的数据个数。
应用:t 检验、卡方检验、方差分析(ANOVA)中的关键参数
效应量 (Effect Size)
衡量统计显著性的实际意义,表示差异或关联的强度。
应用:元分析、干预效果评估、临床研究(如 Cohen's d)
🧮 交互式计算器
输入一组数据(用逗号分隔),计算各种统计量:
💡 实际应用
-
商业分析: 分析销售数据、客户行为,优化业务决策
-
医疗研究: 评估治疗效果、疾病流行趋势
-
质量控制: 监测生产过程中的产品一致性