设计与抽样
📋 什么是设计与抽样?
统计学研究的第一步是获取高质量的数据。设计与抽样关注如何科学地收集数据,包括实验设计、抽样方法、问卷设计等。 好的设计和抽样是统计推断可靠性的基础——"垃圾进,垃圾出"。
🎯 实验设计
1. 实验设计的三大原则
随机化 (Randomization)
随机分配实验对象到不同处理组,消除系统性偏差。
应用:药物临床试验、A/B测试、教育干预研究
重复 (Replication)
在相同条件下重复实验多次,提高结果的可靠性。
应用:科学实验验证、产品质量检测、市场调研
区组 (Blocking)
将相似的对象分组,减少组内变异,提高实验效率。
应用:农业试验(按土壤类型分组)、医学研究(按年龄分组)
2. 实验类型
完全随机设计
将实验对象随机分配到各个处理组,适用于同质总体。
应用:简单药物测试、教学方法比较
随机区组设计
先将对象按某种特征分组(区组),然后在每组内随机分配处理。
应用:不同土壤条件下的作物试验、不同年龄组的药物测试
析因设计
同时研究多个因素及其交互作用。
应用:多因素工艺优化、营销活动效果分析
🎲 抽样方法
1. 概率抽样
简单随机抽样 (SRS)
总体中每个个体被抽中的概率相同。
其中 N 是总体大小,n 是样本大小。
应用:彩票抽奖、小型调查、质量抽检
分层抽样
先将总体分成若干层,然后在每层内进行独立抽样。
其中 H 是层数,$N_h$ 是第 h 层的大小,$\bar{y}_h$ 是第 h 层的样本均值。
应用:全国性调查(按地区分层)、收入调查(按收入分层)
系统抽样
按照固定间隔从总体中抽取样本。
步骤:
- 确定抽样间隔 k = N/n
- 在 1 到 k 之间随机选择一个起始点 r
- 抽取 r, r+k, r+2k, ..., r+(n-1)k
应用:生产线质量检测、档案抽样、时间序列抽样
整群抽样
先将总体分成若干群,随机抽取若干群,对抽中的群进行全面调查。
优点:实施方便、成本低
缺点:群内相似性高时效率低
应用:学校调查(以班级为单位)、社区调查(以社区为单位)
多阶段抽样
结合多种抽样方法,分阶段进行抽样。
示例:全国调查 → 省 → 市 → 区 → 街道 → 家庭
应用:大规模人口普查、国家级调查
2. 非概率抽样
方便抽样
选择最容易获得的样本。
应用:初步探索、试点研究
配额抽样
按比例从不同群体中抽取样本。
应用:市场调研、民意调查
雪球抽样
通过已有样本介绍新的样本。
应用:特殊群体研究(如罕见病患者、地下经济)
📊 样本量确定
1. 估计均值时的样本量
其中:
- Z - 标准正态分布的临界值(如 95% 置信水平下 Z=1.96)
- σ - 总体标准差(通常用预调查估计)
- E - 允许的边际误差
2. 估计比例时的样本量
其中 p 是总体比例(未知时用 p=0.5 使样本量最大)。
3. 假设检验时的样本量
其中:
- $Z_\alpha$ - 第一类错误的临界值
- $Z_\beta$ - 第二类错误的临界值
- Δ - 要检测的差异大小
📋 问卷设计
1. 问卷设计原则
- 明确目的:每个问题都应有明确的调查目的
- 避免引导性:问题不应暗示答案
- 语言清晰:使用简单、无歧义的语言
- 逻辑顺序:从一般到具体,从易到难
- 适当长度:避免问卷过长导致疲劳
2. 问题类型
开放式问题
允许受访者自由回答。
优点:信息丰富、灵活
缺点:难以编码、分析复杂
封闭式问题
提供固定选项供选择。
类型:单选题、多选题、量表题
优点:易于编码、分析方便
缺点:限制回答范围
3. 常见偏差
- 社会期许偏差:受访者倾向于给出"社会认可"的答案
- 回忆偏差:受访者难以准确回忆过去的事件
- 默认选项偏差:倾向于选择第一个或默认选项
- 顺序效应:问题的顺序影响回答
🧮 交互式计算器
计算所需的样本量:
💡 实际应用
-
临床试验: 随机对照试验、双盲设计、安慰剂对照
-
质量控制: 抽样检验、质量控制图、六西格玛
-
市场调研: 目标群体抽样、问卷设计、消费者洞察
-
社会科学: 调查研究、实验设计、政策评估
⚠️ 常见问题
抽样误差 vs 非抽样误差
抽样误差:由于只抽取部分样本而产生的随机误差,可以通过增加样本量减少。
非抽样误差:包括覆盖误差、无响应误差、测量误差等,与样本量无关。
无响应处理
- 提高响应率(多次联系、激励机制)
- 加权调整(根据无响应特征调整权重)
- 替代抽样(用相似样本替代)
数据质量评估
- 检查缺失值和异常值
- 评估无响应偏差
- 验证数据一致性
- 进行预调查测试问卷