设计与抽样

📋 什么是设计与抽样？

统计学研究的第一步是获取高质量的数据。设计与抽样关注如何科学地收集数据，包括实验设计、抽样方法、问卷设计等。好的设计和抽样是统计推断可靠性的基础——"垃圾进，垃圾出"。

🎯 实验设计

1. 实验设计的三大原则

随机化 (Randomization)

随机分配实验对象到不同处理组，消除系统性偏差。

应用：药物临床试验、A/B测试、教育干预研究

重复 (Replication)

在相同条件下重复实验多次，提高结果的可靠性。

应用：科学实验验证、产品质量检测、市场调研

区组 (Blocking)

将相似的对象分组，减少组内变异，提高实验效率。

应用：农业试验（按土壤类型分组）、医学研究（按年龄分组）

2. 实验类型

完全随机设计

将实验对象随机分配到各个处理组，适用于同质总体。

$$H_0: \mu_1 = \mu_2 = \cdots = \mu_k$$

应用：简单药物测试、教学方法比较

随机区组设计

先将对象按某种特征分组（区组），然后在每组内随机分配处理。

应用：不同土壤条件下的作物试验、不同年龄组的药物测试

析因设计

同时研究多个因素及其交互作用。

$$Y = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk}$$

应用：多因素工艺优化、营销活动效果分析

🎲 抽样方法

1. 概率抽样

简单随机抽样 (SRS)

总体中每个个体被抽中的概率相同。

$$P(\text{个体}i \text{被选中}) = \frac{n}{N}$$

其中 N 是总体大小，n 是样本大小。

应用：彩票抽奖、小型调查、质量抽检

分层抽样

先将总体分成若干层，然后在每层内进行独立抽样。

$$\bar{y}_{str} = \sum_{h=1}^{H} \frac{N_h}{N} \bar{y}_h$$

其中 H 是层数，$N_h$ 是第 h 层的大小，$\bar{y}_h$ 是第 h 层的样本均值。

应用：全国性调查（按地区分层）、收入调查（按收入分层）

系统抽样

按照固定间隔从总体中抽取样本。

步骤：

确定抽样间隔 k = N/n
在 1 到 k 之间随机选择一个起始点 r
抽取 r, r+k, r+2k, ..., r+(n-1)k

应用：生产线质量检测、档案抽样、时间序列抽样

整群抽样

先将总体分成若干群，随机抽取若干群，对抽中的群进行全面调查。

优点：实施方便、成本低

缺点：群内相似性高时效率低

应用：学校调查（以班级为单位）、社区调查（以社区为单位）

多阶段抽样

结合多种抽样方法，分阶段进行抽样。

示例：全国调查 → 省 → 市 → 区 → 街道 → 家庭

应用：大规模人口普查、国家级调查

2. 非概率抽样

方便抽样

选择最容易获得的样本。

应用：初步探索、试点研究

配额抽样

按比例从不同群体中抽取样本。

应用：市场调研、民意调查

雪球抽样

通过已有样本介绍新的样本。

应用：特殊群体研究（如罕见病患者、地下经济）

📊 样本量确定

1. 估计均值时的样本量

$$n = \frac{Z^2 \sigma^2}{E^2}$$

其中：

Z - 标准正态分布的临界值（如 95% 置信水平下 Z=1.96）
σ - 总体标准差（通常用预调查估计）
E - 允许的边际误差

2. 估计比例时的样本量

$$n = \frac{Z^2 p(1-p)}{E^2}$$

其中 p 是总体比例（未知时用 p=0.5 使样本量最大）。

3. 假设检验时的样本量

$$n = \frac{(Z_\alpha + Z_\beta)^2 \sigma^2}{\Delta^2}$$

其中：

$Z_\alpha$ - 第一类错误的临界值
$Z_\beta$ - 第二类错误的临界值
Δ - 要检测的差异大小

📋 问卷设计

1. 问卷设计原则

明确目的：每个问题都应有明确的调查目的
避免引导性：问题不应暗示答案
语言清晰：使用简单、无歧义的语言
逻辑顺序：从一般到具体，从易到难
适当长度：避免问卷过长导致疲劳

2. 问题类型

开放式问题

允许受访者自由回答。

优点：信息丰富、灵活

缺点：难以编码、分析复杂

封闭式问题

提供固定选项供选择。

类型：单选题、多选题、量表题

优点：易于编码、分析方便

缺点：限制回答范围

3. 常见偏差

社会期许偏差：受访者倾向于给出"社会认可"的答案
回忆偏差：受访者难以准确回忆过去的事件
默认选项偏差：倾向于选择第一个或默认选项
顺序效应：问题的顺序影响回答

🧮 交互式计算器

计算所需的样本量：

计算类型：

置信水平：

边际误差 (E)：

总体标准差 (σ)：

💡 实际应用

🏥

临床试验： 随机对照试验、双盲设计、安慰剂对照
🏭

质量控制： 抽样检验、质量控制图、六西格玛
📊

市场调研： 目标群体抽样、问卷设计、消费者洞察
🔬

社会科学： 调查研究、实验设计、政策评估

⚠️ 常见问题

抽样误差 vs 非抽样误差

抽样误差：由于只抽取部分样本而产生的随机误差，可以通过增加样本量减少。

非抽样误差：包括覆盖误差、无响应误差、测量误差等，与样本量无关。

无响应处理

提高响应率（多次联系、激励机制）
加权调整（根据无响应特征调整权重）
替代抽样（用相似样本替代）

数据质量评估

检查缺失值和异常值
评估无响应偏差
验证数据一致性
进行预调查测试问卷