设计与抽样
📋 什么是设计与抽样?
统计学研究的第一步是获取高质量的数据。设计与抽样关注如何科学地收集数据,包括实验设计、抽样方法、问卷设计等。 好的设计和抽样是统计推断可靠性的基础——"垃圾进,垃圾出"。
🎲 抽样方法选择指南
📊 抽样方法对比
| 抽样方法 | 适用场景 | 优点 | 缺点 | 精度 |
|---|---|---|---|---|
| 简单随机抽样 | 总体同质、有抽样框 | 简单、无偏 | 需要完整抽样框 | ⭐⭐⭐ |
| 分层抽样 | 总体异质、可分层 | 精度高、代表性强 | 需要分层信息 | ⭐⭐⭐⭐⭐ |
| 系统抽样 | 大规模总体、有序列表 | 操作简单、成本低 | 周期性偏差风险 | ⭐⭐⭐⭐ |
| 整群抽样 | 总体分散、群内异质 | 成本低、易实施 | 精度较低 | ⭐⭐ |
| 多阶段抽样 | 大规模全国性调查 | 灵活、成本效益好 | 设计复杂、误差累积 | ⭐⭐⭐ |
| PPS 抽样 | 群规模差异大 | 自加权、精度高 | 需要规模信息 | ⭐⭐⭐⭐ |
🎯 实验设计
1. 实验设计的三大原则
随机化 (Randomization)
随机分配实验对象到不同处理组,消除系统性偏差。
应用:药物临床试验、A/B测试、教育干预研究
重复 (Replication)
在相同条件下重复实验多次,提高结果的可靠性。
应用:科学实验验证、产品质量检测、市场调研
区组 (Blocking)
将相似的对象分组,减少组内变异,提高实验效率。
应用:农业试验(按土壤类型分组)、医学研究(按年龄分组)
2. 实验类型
完全随机设计
将实验对象随机分配到各个处理组,适用于同质总体。
应用:简单药物测试、教学方法比较
随机区组设计
先将对象按某种特征分组(区组),然后在每组内随机分配处理。
应用:不同土壤条件下的作物试验、不同年龄组的药物测试
析因设计
同时研究多个因素及其交互作用。
应用:多因素工艺优化、营销活动效果分析
🎲 抽样方法
1. 概率抽样
简单随机抽样 (SRS)
总体中每个个体被抽中的概率相同。
其中 N 是总体大小,n 是样本大小。
应用:彩票抽奖、小型调查、质量抽检
分层抽样
先将总体分成若干层,然后在每层内进行独立抽样。
其中 H 是层数,Nh 是第 h 层的大小,ȳh 是第 h 层的样本均值。
应用:全国性调查(按地区分层)、收入调查(按收入分层)
系统抽样
按照固定间隔从总体中抽取样本。
步骤:
- 确定抽样间隔 k = N/n
- 在 1 到 k 之间随机选择一个起始点 r
- 抽取 r, r+k, r+2k, ..., r+(n-1)k
应用:生产线质量检测、档案抽样、时间序列抽样
整群抽样
先将总体分成若干群,随机抽取若干群,对抽中的群进行全面调查。
优点:实施方便、成本低
缺点:群内相似性高时效率低
应用:学校调查(以班级为单位)、社区调查(以社区为单位)
多阶段抽样
结合多种抽样方法,分阶段进行抽样。
示例:全国调查 → 省 → 市 → 区 → 街道 → 家庭
应用:大规模人口普查、国家级调查
2. 非概率抽样
方便抽样
选择最容易获得的样本。
应用:初步探索、试点研究
配额抽样
按比例从不同群体中抽取样本。
应用:市场调研、民意调查
雪球抽样
通过已有样本介绍新的样本。
应用:特殊群体研究(如罕见病患者、地下经济)
📊 样本量确定
1. 估计均值时的样本量
其中:
- Z - 标准正态分布的临界值(如 95% 置信水平下 Z=1.96)
- σ - 总体标准差(通常用预调查估计)
- E - 允许的边际误差
2. 估计比例时的样本量
其中 p 是总体比例(未知时用 p=0.5 使样本量最大)。
3. 假设检验时的样本量
其中:
- Z_α - 第一类错误的临界值
- Z_β - 第二类错误的临界值
- Δ - 要检测的差异大小
📋 问卷设计
1. 问卷设计原则
- 明确目的:每个问题都应有明确的调查目的
- 避免引导性:问题不应暗示答案
- 语言清晰:使用简单、无歧义的语言
- 逻辑顺序:从一般到具体,从易到难
- 适当长度:避免问卷过长导致疲劳
2. 问题类型
开放式问题
允许受访者自由回答。
优点:信息丰富、灵活
缺点:难以编码、分析复杂
封闭式问题
提供固定选项供选择。
类型:单选题、多选题、量表题
优点:易于编码、分析方便
缺点:限制回答范围
3. 常见偏差
- 社会期许偏差:受访者倾向于给出"社会认可"的答案
- 回忆偏差:受访者难以准确回忆过去的事件
- 默认选项偏差:倾向于选择第一个或默认选项
- 顺序效应:问题的顺序影响回答
🧮 交互式计算器
计算所需的样本量:
💡 实际应用
-
临床试验: 随机对照试验、双盲设计、安慰剂对照
-
质量控制: 抽样检验、质量控制图、六西格玛
-
市场调研: 目标群体抽样、问卷设计、消费者洞察
-
社会科学: 调查研究、实验设计、政策评估
⚠️ 常见问题
抽样误差 vs 非抽样误差
抽样误差:由于只抽取部分样本而产生的随机误差,可以通过增加样本量减少。
非抽样误差:包括覆盖误差、无响应误差、测量误差等,与样本量无关。
无响应处理
- 提高响应率(多次联系、激励机制)
- 加权调整(根据无响应特征调整权重)
- 替代抽样(用相似样本替代)
数据质量评估
- 检查缺失值和异常值
- 评估无响应偏差
- 验证数据一致性
- 进行预调查测试问卷
🔬 高级抽样方法
1. 多阶段抽样(Multistage Sampling)
分层抽样和整群抽样的结合,分多个阶段进行:
- 第一阶段:抽取若干个群
- 第二阶段:在每个群中再抽取若干个子群
- 可以继续多个阶段
优点:节省成本、操作灵活
缺点:抽样误差较大、分析复杂
应用:大规模调查(如人口普查)、地理抽样、企业调查
2. 系统抽样(Systematic Sampling)
按照固定的间隔从总体中抽取样本:
其中 N 是总体大小,n 是样本大小,k 是抽样间隔
步骤:
- 计算间隔 k = N/n
- 从 1 到 k 中随机选择一个起始点
- 每隔 k 个单位抽取一个样本
应用:流水线质量检查、文件抽样、时间序列数据
3. 概率与规模成比例抽样(PPS)
每个群被抽中的概率与其规模成比例:
其中 Mi 是第 i 个群的规模
优点:样本规模更均衡、提高估计精度
应用:企业调查、学校调查、医院调查
4. 二重抽样(Double Sampling)
分两阶段抽样:第一阶段收集基本信息,第二阶段进行深入调查:
- 第一阶段:抽取大样本,收集简单、廉价的变量
- 第二阶段:从第一阶段样本中抽取子样本,收集详细、昂贵的变量
应用:分层抽样(先分类再抽样)、非响应补偿、缺失值填补
5. 贝叶斯抽样(Bayesian Sampling)
结合先验信息和样本信息进行抽样设计:
优点:充分利用先验知识、小样本估计更精确
缺点:需要先验分布、计算复杂
应用:稀有事件抽样、医学试验、质量控制
📊 抽样误差与非抽样误差
抽样误差
由于只抽取部分样本而产生的误差:
特点:不可避免、可以通过增加样本量减小、可以量化
控制方法:
- 增加样本量
- 使用分层抽样
- 选择合适的抽样设计
非抽样误差
除抽样误差外的所有误差,通常比抽样误差更难控制:
1. 覆盖误差(Coverage Error)
抽样框不完全覆盖目标总体:
- 遗漏误差(Undercoverage):部分总体单位未被包含在抽样框中
- 过覆盖误差(Overcoverage):抽样框包含不属于总体的单位
例子:电话调查忽略没有电话的人群、网络调查忽略不使用网络的人群
2. 无响应误差(Nonresponse Error)
被选中的样本单位不响应或部分响应:
- 单位无响应:被抽中的单位完全拒绝回答
- 项目无响应:单位回答部分问题,跳过某些敏感问题
影响:无响应者与响应者可能有系统性差异,导致估计偏差
应对:多次联系、无响应调整、加权调整
3. 测量误差(Measurement Error)
数据收集过程中的误差:
- 问卷设计问题:问题表述不清、选项不当、顺序效应
- 访问员效应:访问员的态度、语气影响受访者回答
- 受访者效应:记忆偏差、社会期许偏差、故意撒谎
控制:预测试问卷、培训访问员、匿名调查
4. 处理误差(Processing Error)
数据录入、编码、分析过程中的误差:
- 数据录入错误
- 编码错误
- 计算错误
- 软件使用错误
控制:双重录入、数据验证、质量控制程序
🎯 最优样本量设计
考虑的因素
最优样本量需要在精度和成本之间平衡:
- 精度要求:可接受的抽样误差
- 置信水平:通常为 95% 或 99%
- 总体大小:N 对样本量的影响有限(当 N 很大时)
- 总体方差:方差越大,需要的样本量越大
- 成本约束:预算限制
- 时间限制:调查时间窗口
有限总体修正
当样本占总体比例较大时(>5%),需要使用有限总体修正因子:
有限总体修正因子:N - nN - 1
效果:当 n/N 很小时,修正因子接近 1,影响可忽略;当 n/N 较大时,可以显著减少抽样误差