设计与抽样

📋 什么是设计与抽样?

统计学研究的第一步是获取高质量的数据。设计与抽样关注如何科学地收集数据,包括实验设计、抽样方法、问卷设计等。 好的设计和抽样是统计推断可靠性的基础——"垃圾进,垃圾出"。

🎲 抽样方法选择指南

🎯 目标总体
有抽样框?
总体 homogeneous?
简单随机抽样
分层抽样
整群抽样
多阶段抽样
📊 样本数据

📊 抽样方法对比

抽样方法 适用场景 优点 缺点 精度
简单随机抽样 总体同质、有抽样框 简单、无偏 需要完整抽样框 ⭐⭐⭐
分层抽样 总体异质、可分层 精度高、代表性强 需要分层信息 ⭐⭐⭐⭐⭐
系统抽样 大规模总体、有序列表 操作简单、成本低 周期性偏差风险 ⭐⭐⭐⭐
整群抽样 总体分散、群内异质 成本低、易实施 精度较低 ⭐⭐
多阶段抽样 大规模全国性调查 灵活、成本效益好 设计复杂、误差累积 ⭐⭐⭐
PPS 抽样 群规模差异大 自加权、精度高 需要规模信息 ⭐⭐⭐⭐

🎯 实验设计

1. 实验设计的三大原则

随机化 (Randomization)

随机分配实验对象到不同处理组,消除系统性偏差。

应用:药物临床试验、A/B测试、教育干预研究

重复 (Replication)

在相同条件下重复实验多次,提高结果的可靠性。

应用:科学实验验证、产品质量检测、市场调研

区组 (Blocking)

将相似的对象分组,减少组内变异,提高实验效率。

应用:农业试验(按土壤类型分组)、医学研究(按年龄分组)

2. 实验类型

完全随机设计

将实验对象随机分配到各个处理组,适用于同质总体。

H0: μ1 = μ2 = \cdots = μk

应用:简单药物测试、教学方法比较

随机区组设计

先将对象按某种特征分组(区组),然后在每组内随机分配处理。

应用:不同土壤条件下的作物试验、不同年龄组的药物测试

析因设计

同时研究多个因素及其交互作用。

Y = μ + αi + βj + (αβ)ij + \varepsilonijk

应用:多因素工艺优化、营销活动效果分析

🎲 抽样方法

1. 概率抽样

简单随机抽样 (SRS)

总体中每个个体被抽中的概率相同。

P(个体i 被选中) = nN

其中 N 是总体大小,n 是样本大小。

应用:彩票抽奖、小型调查、质量抽检

分层抽样

先将总体分成若干层,然后在每层内进行独立抽样。

str = h=1H NhN h

其中 H 是层数,Nh 是第 h 层的大小,h 是第 h 层的样本均值。

应用:全国性调查(按地区分层)、收入调查(按收入分层)

系统抽样

按照固定间隔从总体中抽取样本。

步骤:

  1. 确定抽样间隔 k = N/n
  2. 在 1 到 k 之间随机选择一个起始点 r
  3. 抽取 r, r+k, r+2k, ..., r+(n-1)k

应用:生产线质量检测、档案抽样、时间序列抽样

整群抽样

先将总体分成若干群,随机抽取若干群,对抽中的群进行全面调查。

优点:实施方便、成本低

缺点:群内相似性高时效率低

应用:学校调查(以班级为单位)、社区调查(以社区为单位)

多阶段抽样

结合多种抽样方法,分阶段进行抽样。

示例:全国调查 → 省 → 市 → 区 → 街道 → 家庭

应用:大规模人口普查、国家级调查

2. 非概率抽样

方便抽样

选择最容易获得的样本。

应用:初步探索、试点研究

配额抽样

按比例从不同群体中抽取样本。

应用:市场调研、民意调查

雪球抽样

通过已有样本介绍新的样本。

应用:特殊群体研究(如罕见病患者、地下经济)

📊 样本量确定

1. 估计均值时的样本量

n = Z2 σ2E2

其中:

  • Z - 标准正态分布的临界值(如 95% 置信水平下 Z=1.96)
  • σ - 总体标准差(通常用预调查估计)
  • E - 允许的边际误差

2. 估计比例时的样本量

n = Z2 p(1-p)E2

其中 p 是总体比例(未知时用 p=0.5 使样本量最大)。

3. 假设检验时的样本量

n = (Z_α + Z_β)2 σ2Δ2

其中:

  • Z_α - 第一类错误的临界值
  • Z_β - 第二类错误的临界值
  • Δ - 要检测的差异大小

📋 问卷设计

1. 问卷设计原则

  • 明确目的:每个问题都应有明确的调查目的
  • 避免引导性:问题不应暗示答案
  • 语言清晰:使用简单、无歧义的语言
  • 逻辑顺序:从一般到具体,从易到难
  • 适当长度:避免问卷过长导致疲劳

2. 问题类型

开放式问题

允许受访者自由回答。

优点:信息丰富、灵活

缺点:难以编码、分析复杂

封闭式问题

提供固定选项供选择。

类型:单选题、多选题、量表题

优点:易于编码、分析方便

缺点:限制回答范围

3. 常见偏差

  • 社会期许偏差:受访者倾向于给出"社会认可"的答案
  • 回忆偏差:受访者难以准确回忆过去的事件
  • 默认选项偏差:倾向于选择第一个或默认选项
  • 顺序效应:问题的顺序影响回答

🧮 交互式计算器

计算所需的样本量:

💡 实际应用

  • 🏥
    临床试验: 随机对照试验、双盲设计、安慰剂对照
  • 🏭
    质量控制: 抽样检验、质量控制图、六西格玛
  • 📊
    市场调研: 目标群体抽样、问卷设计、消费者洞察
  • 🔬
    社会科学: 调查研究、实验设计、政策评估

⚠️ 常见问题

抽样误差 vs 非抽样误差

抽样误差:由于只抽取部分样本而产生的随机误差,可以通过增加样本量减少。

非抽样误差:包括覆盖误差、无响应误差、测量误差等,与样本量无关。

无响应处理

  • 提高响应率(多次联系、激励机制)
  • 加权调整(根据无响应特征调整权重)
  • 替代抽样(用相似样本替代)

数据质量评估

  • 检查缺失值和异常值
  • 评估无响应偏差
  • 验证数据一致性
  • 进行预调查测试问卷

🔬 高级抽样方法

1. 多阶段抽样(Multistage Sampling)

分层抽样和整群抽样的结合,分多个阶段进行:

  1. 第一阶段:抽取若干个群
  2. 第二阶段:在每个群中再抽取若干个子群
  3. 可以继续多个阶段

优点:节省成本、操作灵活
缺点:抽样误差较大、分析复杂

应用:大规模调查(如人口普查)、地理抽样、企业调查

2. 系统抽样(Systematic Sampling)

按照固定的间隔从总体中抽取样本:

k = Nn

其中 N 是总体大小,n 是样本大小,k 是抽样间隔

步骤:

  1. 计算间隔 k = N/n
  2. 从 1 到 k 中随机选择一个起始点
  3. 每隔 k 个单位抽取一个样本

应用:流水线质量检查、文件抽样、时间序列数据

3. 概率与规模成比例抽样(PPS)

每个群被抽中的概率与其规模成比例:

Pi = Mij=1K Mj

其中 Mi 是第 i 个群的规模

优点:样本规模更均衡、提高估计精度
应用:企业调查、学校调查、医院调查

4. 二重抽样(Double Sampling)

分两阶段抽样:第一阶段收集基本信息,第二阶段进行深入调查:

  • 第一阶段:抽取大样本,收集简单、廉价的变量
  • 第二阶段:从第一阶段样本中抽取子样本,收集详细、昂贵的变量

应用:分层抽样(先分类再抽样)、非响应补偿、缺失值填补

5. 贝叶斯抽样(Bayesian Sampling)

结合先验信息和样本信息进行抽样设计:

P(θ|data) \propto P(data|θ) × P(θ)

优点:充分利用先验知识、小样本估计更精确
缺点:需要先验分布、计算复杂
应用:稀有事件抽样、医学试验、质量控制

📊 抽样误差与非抽样误差

抽样误差

由于只抽取部分样本而产生的误差:

SE = σn

特点:不可避免、可以通过增加样本量减小、可以量化

控制方法:

  • 增加样本量
  • 使用分层抽样
  • 选择合适的抽样设计

非抽样误差

除抽样误差外的所有误差,通常比抽样误差更难控制:

1. 覆盖误差(Coverage Error)

抽样框不完全覆盖目标总体:

  • 遗漏误差(Undercoverage):部分总体单位未被包含在抽样框中
  • 过覆盖误差(Overcoverage):抽样框包含不属于总体的单位

例子:电话调查忽略没有电话的人群、网络调查忽略不使用网络的人群

2. 无响应误差(Nonresponse Error)

被选中的样本单位不响应或部分响应:

  • 单位无响应:被抽中的单位完全拒绝回答
  • 项目无响应:单位回答部分问题,跳过某些敏感问题

影响:无响应者与响应者可能有系统性差异,导致估计偏差

应对:多次联系、无响应调整、加权调整

3. 测量误差(Measurement Error)

数据收集过程中的误差:

  • 问卷设计问题:问题表述不清、选项不当、顺序效应
  • 访问员效应:访问员的态度、语气影响受访者回答
  • 受访者效应:记忆偏差、社会期许偏差、故意撒谎

控制:预测试问卷、培训访问员、匿名调查

4. 处理误差(Processing Error)

数据录入、编码、分析过程中的误差:

  • 数据录入错误
  • 编码错误
  • 计算错误
  • 软件使用错误

控制:双重录入、数据验证、质量控制程序

🎯 最优样本量设计

考虑的因素

最优样本量需要在精度和成本之间平衡:

  • 精度要求:可接受的抽样误差
  • 置信水平:通常为 95% 或 99%
  • 总体大小:N 对样本量的影响有限(当 N 很大时)
  • 总体方差:方差越大,需要的样本量越大
  • 成本约束:预算限制
  • 时间限制:调查时间窗口

有限总体修正

当样本占总体比例较大时(>5%),需要使用有限总体修正因子:

SEfpc = σn N - nN - 1

有限总体修正因子:N - nN - 1

效果:当 n/N 很小时,修正因子接近 1,影响可忽略;当 n/N 较大时,可以显著减少抽样误差