概率论基础

🎲 什么是概率？

概率是衡量事件发生可能性的数值，取值范围在 0 到 1 之间。 0 表示不可能发生，1 表示必然发生。概率论是研究随机现象的数学理论。

P(A) = 事件A发生的有利结果数 所有可能结果的总数

📊 基本概念

1. 条件概率

条件概率是在已知事件 B 发生的条件下，事件 A 发生的概率。

P(A|B) = P(A \cap B) P(B)

其中 $P(A|B)$ 表示在 B 发生的条件下 A 发生的概率。

2. 乘法定理

两个事件同时发生的概率等于一个事件的概率乘以在该事件发生的条件下另一个事件的概率。

P(A \cap B) = P(A) \times P(B|A) = P(B) \times P(A|B)

3. 贝叶斯定理

贝叶斯定理描述了条件概率之间的关系，是统计推断的重要工具。

P(A|B) = P(B|A) \times P(A) P(B)

其中：

$P(A)$ - 先验概率（在考虑 B 之前 A 的概率）
$P(B|A)$ - 似然度（在 A 发生的条件下 B 发生的概率）
$P(A|B)$ - 后验概率（在观察到 B 之后 A 的概率）

📐 概率公理与基本性质

1. 概率公理

柯尔莫哥洛夫概率公理是现代概率论的基石：

非负性：对任意事件 A， $P(A) \geq 0$
规范性： $P(Ω) = 1$ ，其中 $Ω$ 是样本空间
可列可加性：对于可数个互不相容的事件 $A1, A2, \ldots$ ， $P(\bigcupi=1∞ Ai) = ∑i=1∞ P(Ai)$

2. 基本概率公式

对立事件

事件 A 不发生的概率

P(A c) = 1 - P(A)

应用：计算"至少一次"的概率、风险评估

加法公式

两个事件至少有一个发生的概率

P(A \cup B) = P(A) + P(B) - P(A \cap B)

应用：计算重叠事件的概率、市场渗透率分析

互斥事件（不相容事件）

两个事件不能同时发生，即 $A ∩ B = \emptyset$

P(A \cup B) = P(A) + P(B)

应用：互斥投资组合、排他性选项分析

独立事件

一个事件的发生不影响另一个事件的概率

P(A \cap B) = P(A) \times P(B)

P(A|B) = P(A)

应用：独立试验、系统可靠性分析、加密安全性

🔢 全概率公式与贝叶斯公式

1. 全概率公式

如果事件 $B1, B2, \ldots, Bn$ 构成一个完备事件组（互斥且并集为样本空间），则：

P(A) = \sum i=1 n P(A|B i) \times P(B i)

应用：分层抽样、多源风险评估、决策树分析

2. 贝叶斯定理的完整形式

利用全概率公式，贝叶斯定理可表示为：

P(B i |A) = P(A|B i) \times P(B i) \sum j=1 n P(A|B j) \times P(B j)

应用：垃圾邮件过滤、医疗诊断、模式识别、机器学习分类算法

📊 随机变量与数字特征

1. 随机变量

将随机试验的结果映射到数值的函数。

离散型随机变量：取值为可数的（如抛硬币次数、掷骰子点数）
连续型随机变量：取值在某个区间内（如身高、温度、时间）

2. 概率质量函数 (PMF)

离散型随机变量取各值的概率：

p X (x) = P(X = x)

性质： $\sum x p X (x) = 1$

3. 概率密度函数 (PDF)

连续型随机变量的密度函数：

P(a \leq X \leq b) = \int a b f X (x) dx

\int - \infty \infty f X (x) dx = 1

4. 累积分布函数 (CDF)

随机变量小于或等于某个值的概率：

F X (x) = P(X \leq x) = \sum t \leq x p X (t) 离散型 \int - \infty x f X (t) dt 连续型

应用：百分位数计算、风险概率评估、质量控制

5. 期望值（数学期望）

随机变量的"平均值"或"长期均值"：

E[X] = \sum x x \cdot p X (x) 离散型 \int - \infty \infty x \cdot f X (x) dx 连续型

性质：

$E[aX + b] = aE[X] + b$
$E[X + Y] = E[X] + E[Y]$
$E[XY] = E[X]E[Y]$ （当 X, Y 独立时）

应用：保险定价、投资回报评估、游戏设计、赌场优势计算

6. 方差

衡量随机变量围绕期望值的离散程度：

Var(X) = E[(X - E[X]) 2] = E[X 2] - (E[X]) 2

性质：

$Var(aX + b) = a 2 Var(X)$
$Var(X + Y) = Var(X) + Var(Y)$ （当 X, Y 独立时）

应用：风险管理、投资组合优化、质量控制

7. 标准差

方差的平方根，与随机变量具有相同的单位：

σ X = Var(X)

8. 协方差

衡量两个随机变量的线性关系：

Cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]

应用：投资组合风险分析、多元统计分析

9. 相关系数

标准化后的协方差，取值范围 [-1, 1]：

ρ X,Y = Cov(X, Y) Var(X)Var(Y)

应用：相关性分析、特征选择、数据预处理

📈 离散型概率分布

1. 伯努利分布

描述单次二元试验（成功/失败）：

P(X = k) = pk (1-p)1-k, \quad k ∈ \{0, 1\}

参数：成功概率 p

期望： $E[X] = p$

方差： $Var(X) = p(1-p)$

应用：抛硬币、产品质检、二分类问题

2. 二项分布

n 次独立伯努利试验中成功的次数：

P(X = k) = nk pk (1-p)n-k, \quad k = 0, 1, \ldots, n

参数：试验次数 n，成功概率 p

期望： $E[X] = np$

方差： $Var(X) = np(1-p)$

应用：质量抽检、民意调查、体育比赛胜负预测

3. 泊松分布

描述固定时间或空间内事件发生的次数：

P(X = k) = e-λ λkk!, \quad k = 0, 1, 2, \ldots

参数：平均发生率 λ

期望： $E[X] = λ$

方差： $Var(X) = λ$

应用：客服中心来电数、网站访问量、放射性衰变、交通事故统计

4. 几何分布

获得首次成功所需的试验次数：

P(X = k) = (1-p)k-1 p, \quad k = 1, 2, 3, \ldots

参数：成功概率 p

期望： $E[X] = 1 p$

方差： $Var(X) = 1-p p 2$

应用：电话呼叫次数、抽奖次数、缺陷产品检测

5. 超几何分布

从有限总体中不放回抽样，成功次数的分布：

P(X = k) = K k N-K n-k N n

参数：总体大小 N，总体中成功数 K，抽样数 n

应用：质量控制（不放回抽样）、抽奖、牌类游戏

📈 连续型概率分布

1. 均匀分布

在区间 [a, b] 上每个值出现的概率相同：

f(x) = 1 b-a a \leq x \leq b 0 其他

期望： $E[X] = a+b 2$

方差： $Var(X) = (b-a) 2 12$

应用：随机数生成、模拟建模、排队论

2. 正态分布（高斯分布）

最重要的连续分布，许多自然现象都近似服从正态分布：

f(x) = 1 σ 2 π e - (x- μ) 2 2 σ 2

参数：均值 μ，标准差 σ

期望： $E[X] = μ$

方差： $Var(X) = σ 2$

重要性质：

68.27% 的数据在 [μ-σ, μ+σ] 范围内
95.45% 的数据在 [μ-2σ, μ+2σ] 范围内
99.73% 的数据在 [μ-3σ, μ+3σ] 范围内

应用：身高体重、测量误差、金融收益、自然现象建模

3. 标准正态分布

μ = 0, σ = 1 的正态分布，记为 Z ~ N(0,1)：

Z = X - μ σ

应用：标准化、假设检验、概率计算查表

4. 指数分布

描述独立随机事件之间的等待时间：

f(x) = λ e - λ x x \geq 0 0 x < 0

参数：率参数 λ

期望： $E[X] = 1 λ$

方差： $Var(X) = 1 λ 2$

无记忆性： $P(X > s+t | X > s) = P(X > t)$

应用：等待时间分析、寿命预测、排队论

5. 指数分布与泊松分布的关系

泊松分布描述固定时间内的事件次数，指数分布描述事件之间的等待时间。

应用：呼叫中心、交通流量、放射性衰变

6. 对数正态分布

对数服从正态分布的随机变量：

f(x) = 1xσ2π e-(ln x - μ)22σ2, \quad x > 0

应用：股票价格、收入分布、产品寿命

8. 幂律分布（Power Law Distribution）

幂律分布是一种厚尾分布，描述了许多自然和社会现象中的不平等分布：

P(X = x) = C x-α, \quad x \geq xmin

其中：

$α > 1$ - 幂律指数（缩放参数）
$x min > 0$ - 最小阈值
$C = (α -1) x min α -1$ - 归一化常数

累积分布函数（CCDF）

P(X > x) = x min x α -1

数字特征

E[X] = α-1α-2 xmin \quad (α > 2)

Var(X) = (α-1)2(α-2)2(α-3) xmin2 \quad (α > 3)

帕累托分布（Pareto Distribution）

幂律分布的一种常见形式，由意大利经济学家帕累托提出：

F(x) = 1 - xmxα, \quad x \geq xm

帕累托法则（80/20 法则）： 约 80% 的财富由 20% 的人拥有

幂律分布的特征

厚尾特性：极端值出现的概率远高于正态分布
无标度性：分布形状在不同尺度下保持相似（自相似性）
长尾效应：少数大值占据主导地位

实际应用

财富分布：收入、资产、公司规模
城市规模：城市人口分布（齐普夫定律）
网络科学：社交网络度数分布、互联网链接
自然灾害：地震震级、森林火灾面积
商业领域：产品销量、网站访问量、引用次数
生物学：物种丰度、蛋白质相互作用

💡 幂律 vs 正态分布：

正态分布：大多数值集中在均值附近，极端值罕见
幂律分布：没有典型的"平均值"，极端值常见且重要

⚠️ 注意事项： 幂律分布的均值和方差可能不存在（当

α \leq 2

或

α \leq 3

时），因此传统统计方法可能不适用。

7. t 分布（学生 t 分布）

用于小样本、总体标准差未知的情况：

f(t) = Γ (ν +1 2) ν π Γ (ν 2) (1 + t 2 ν) - ν +1 2

参数：自由度 ν

特点：比正态分布更"厚尾"

应用：小样本均值检验、置信区间

🎯 重要定理

1. 大数定律

弱大数定律

当样本量趋近于无穷时，样本均值依概率收敛于总体均值：

X̄n \xrightarrow{P} μ \quad 当 \quad n \to ∞

强大数定律

当样本量趋近于无穷时，样本均值几乎必然收敛于总体均值：

X̄n \xrightarrow{a.s.} μ \quad 当 \quad n \to ∞

应用：保险定价、赌场盈利、频率稳定性的理论基础

2. 中心极限定理 (CLT)

当样本量足够大时，无论总体服从什么分布，样本均值的分布都近似服从正态分布：

X̄n \sim N(μ, σ2n) \quad 当 \quad n \to ∞

X̄n - μσ/n \xrightarrow{d} N(0,1)

应用：假设检验、置信区间、质量控制、抽样调查

3. 切比雪夫不等式

对于任意随机变量，给出概率的界限：

P(|X - μ | \geq k σ) \leq 1 k 2

P(|X - μ | < k σ) \geq 1 - 1 k 2

应用：概率界限估计、大数定律证明、质量控制

🎲 多维随机变量

1. 联合分布

描述多个随机变量同时取值的概率分布：

F X,Y (x,y) = P(X \leq x, Y \leq y)

2. 边缘分布

从联合分布中得到单个变量的分布：

F X (x) = F X,Y (x, \infty)

3. 条件分布

在已知一个变量取值的条件下，另一个变量的分布：

P(X=x|Y=y) = P(X=x, Y=y) P(Y=y)

4. 独立性

两个随机变量独立的条件：

P(X \leq x, Y \leq y) = P(X \leq x) \times P(Y \leq y)

f X,Y (x,y) = f X (x) \times f Y (y)

📊 矩母函数（Moment Generating Function）

定义

矩母函数是随机变量的一个重要工具，可以生成各阶矩：

M X (t) = E[e tX]

性质

$M X (0) = 1$
$M X (k) (0) = E[X k]$ （第 k 阶矩）
$M X+Y (t) = M X (t) \times M Y (t)$ （当 X, Y 独立时）

常见分布的矩母函数

分布	参数	矩母函数
二项分布	B(n,p)	$(1-p + pe t) n$
泊松分布	Poisson(λ)	$exp[λ (e t - 1)]$
正态分布	N(μ,σ²)	$exp(μ t + σ 2 t 2 2)$
指数分布	Exp(λ)	$λ λ - t$ （t < λ）

应用：推导分布性质、证明极限定理、计算复杂概率

🎯 条件期望与条件方差

条件期望

在已知某些信息的条件下，随机变量的期望值：

E[X|Y] = \sum x x \times P(X=x|Y)

全期望公式（重期望公式）

条件期望的期望等于无条件期望：

E[X] = E[E[X|Y]]

应用：分层抽样、序贯分析、决策树

条件方差

在已知 Y 的条件下，X 的方差：

Var(X|Y) = E[(X - E[X|Y]) 2 |Y]

全方差公式

将总方差分解为条件期望的方差和条件方差的期望：

Var(X) = E[Var(X|Y)] + Var(E[X|Y])

应用：方差分析、风险分解、贝叶斯推断

⚡ 马尔可夫不等式与推广

马尔可夫不等式

对于非负随机变量 X：

P(X \geq a) \leq E[X]} a

应用：概率界限估计、算法分析

切比雪夫不等式（马尔可夫不等式的推论）

对于任意随机变量，已知期望和方差：

P(|X - μ | \geq ε) \leq Var(X)} ε 2

应用：概率界限、质量控制、大数定律证明

霍夫丁不等式（Hoeffding's Inequality）

有界随机变量之和的集中不等式：

P(X̄ n - μ \geq ε) \leq exp(-2n ε 2 \sum (b i -a i) 2)

应用：机器学习理论、在线学习、强化学习

切尔诺夫界（Chernoff Bound）

利用矩母函数推导的指数级概率界限：

P(X \geq (1+ δ) μ) \leq exp(- δ 2 μ 2+ δ)

应用：随机化算法分析、通信系统、密码学

🔗 随机过程基础

什么是随机过程？

随机过程是一族随机变量的集合，通常与时间相关：

\{Xt : t ∈ T\}

其中 T 是指标集（通常是时间集）

马尔可夫链

具有马尔可夫性质的离散时间随机过程：

P(Xn+1 = j | Xn = i, Xn-1, \ldots, X0) = P(Xn+1 = j | Xn = i)

应用：PageRank 算法、金融建模、生物序列分析

泊松过程

描述随机事件在时间上发生的计数过程：

独立增量：不同时间区间内的事件数相互独立
平稳增量：事件数只依赖于时间区间长度
Poisson 分布：在时间 t 内的事件数服从 Poisson(λt)

应用：排队论、交通流、通信网络、放射性衰变

布朗运动（维纳过程）

连续时间的随机过程，具有以下性质：

$W(0) = 0$
独立增量
$W(t+s) - W(s) \sim N(0, t)$
路径连续

应用：金融衍生品定价、物理学、信号处理

🔄 大数定律演示

大数定律表明：当独立重复试验的次数趋近于无穷时，事件发生的频率会趋近于其理论概率。

抛硬币次数：

💡 贝叶斯定理应用示例

医疗检测问题： 某疾病的发病率为 0.1%，检测方法的准确率为 99%（即患病者检测为阳性的概率为 99%，健康者检测为阴性的概率为 99%）。如果一个人的检测结果为阳性，他真正患病的概率是多少？

P(患病|阳性) = 0.99 × 0.0010.99 × 0.001 + 0.01 × 0.999 ≈ 9\%

结论： 即使检测准确率高达 99%，阳性结果下真正患病的概率只有约 9%！这就是为什么需要结合先验概率来判断。

🧮 概率分布计算器

正态分布 N(μ, σ²)

均值 (μ)：

标准差 (σ)：

计算类型：

x 值：

二项分布 B(n, p)

试验次数 (n)：

成功概率 (p)：

成功次数 (k)：

泊松分布 P(λ)

平均发生率 (λ)：

事件次数 (k)：

指数分布 Exp(λ)

率参数 (λ)：