Estimation and Sampling Theory 估计与抽样理论

本文最后更新于28 天前，其中的信息可能已经过时，如有错误请留言

描述性统计：
是在已经有全部数据的情况下，对这些数据进行总结、分析和呈现。
比如：你统计了全班学生的身高，然后算出平均身高、最大值、最小值，这就是描述性统计。

推断性统计：
是在只拿到部分样本数据的前提下，去推测整个总体的情况。
比如：你只随机量了全班 5 个同学的身高，就想估计全班的平均身高，这就是推断性统计。

实际上，研究人员几乎总是依赖样本 —— 即某个更大总体的有限子集。抽样理论通过明确如何从样本数据推断未知总体参数，架起了概率与推断之间的桥梁

统计学的两大基本问题：估计问题和假设检验问题，我们需要对我们说学习的统计学有个大体的框架，我们在算什么，在做什么，西面用一个例子讲清楚

你要采购10000个灯泡，老板要求这批灯泡的平均寿命必须大于4000h，这时你找到一个灯泡制作工厂
你并不知道这10000个灯泡的平均寿命是多少
我们知道最真实的平均寿命（被称为总体寿命）就是将这10000个灯泡全部测一遍寿命然后计算，但这不会破坏这些灯泡，所以我们需要估计总体寿命，所以我们从这10000个灯泡中采样100个灯泡，计算他们的平均寿命（被称为样本均值），通过计算我们得到一个平均寿命为4001h，

你抽了 100 个灯泡，算出样本均值\(\bar{X}=4001\)小时。但只报这个数老板不放心 ——“这 100 个能代表 10000 个吗？误差有多大？”

这时候就需要置信区间：它能告诉你 “总体均值大概率落在哪个范围里”。

假设我们算出样本标准差\(s=200\)小时（用贝塞尔校正后的无偏估计），根据统计学的中心极限定理，总体均值的 95% 置信区间公式为：

\(\bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}\)

（这里\(n=100\)，\(n-1=99\)，\(t_{\alpha/2}\)近似取 1.984，因为大样本下 t 分布接近正态分布）

代入计算：

\(4001 \pm 1.984 \cdot \frac{200}{\sqrt{100}} = 4001 \pm 1.984 \cdot 20 = 4001 \pm 39.68\)

即95% 的置信区间是 (3961.32, 4040.68) 小时。

它的含义是：“我们有 95% 的把握，这批 10000 个灯泡的真实平均寿命在 3961.32 到 4040.68 小时之间。” 这就把 “估计的不确定性” 量化了

以上是统计学的估计问题的解决过程，下面就是科学的决策到底要不要拒绝这批产品，在统计学中称为假设检验问题

老板要求 “平均寿命必须大于 4000h”，我们可以把它转化为假设检验：

原假设\(H_0\)：总体平均寿命\(\mu \leq 4000\)（这批货不达标，该拒绝）
备择假设\(H_1\)：总体平均寿命\(\mu > 4000\)（这批货达标，该接受）

接下来需要判断：样本均值\(\bar{X}=4001\)是 “偶然出现”，还是 “足以证明总体确实 > 4000”。

步骤 1：计算检验统计量

用 t 统计量（因为总体标准差未知，用样本标准差代替）：

\(t = \frac{\bar{X} – \mu_0}{s/\sqrt{n}} = \frac{4001 – 4000}{200/\sqrt{100}} = \frac{1}{20} = 0.05\)

步骤 2：确定 “拒绝域”

我们设定显著性水平\(\alpha=0.05\)（即允许第一类错误的概率为 5%）。对于单侧检验（因为只要\(\mu>4000\)就达标），查 t 分布表（自由度 99），得临界值\(t_{0.05}(99) \approx 1.66\)。

如果计算的\(t > 1.66\)，就拒绝\(H_0\)（认为达标）；否则不拒绝\(H_0\)（认为不达标）。

这里我们的\(t=0.05 < 1.66\)，所以不拒绝原假设\(H_0\)—— 也就是说，目前的样本证据不足以证明这批灯泡平均寿命 > 4000h，需要谨慎决策。

但是问题在于我们用100个样本点估计的值可能是错误的，但同时也有可能恰好是准确的，这里就引入了2个错误
假设你是概率之神，知道总体均值的值
第一类错误即估计值4001h是不准确的结果（真实为3900h）但你选择采用
这批灯泡真实平均寿命≤4000h（不达标），但我们错误地认为它 > 4000h 并采购了 —— 后果是买到次品，损失成本。
第二类错误即估计值40001h是准确的结果（真实也为4001h）但你选择不采用
这批灯泡真实平均寿命 > 4000h（达标），但我们错误地认为它≤4000h 并拒绝了 —— 后果是错过好货，损失商机。
我们在做决策时都有可能烦以上两个错误之一，但是我们尽可能的降低犯错的概率

统计学中，α 和 β 此消彼长：如果我们把 α 设得很小（比如 0.01），减少 “错买次品” 的概率，但会增加 “错拒好货” 的 β；反之如果 α 设得大（比如 0.1），减少 β，但增加 α。

在这个灯泡例子中，老板可能更怕 “买到次品”，所以会把 α 设得小一些（比如 0.01），宁愿多拒绝一些可能达标的批次，也要降低买到次品的风险。

总结：统计学框架的核心逻辑

估计问题：用样本算 “点估计”（如样本均值），再用 “置信区间” 量化估计的可靠性，回答 “总体参数大概在哪，准不准”。
假设检验问题：先提出关于总体的 “假设”，再用样本证据判断 “是否有足够理由推翻原假设”，回答 “决策是否合理”。
两类错误与权衡：明确决策的风险，根据实际场景（怕错买还是怕错拒）调整 α，让统计决策服务于业务目标。

抽样方法

简单随机样本

抽样方法定义了如何选择样本。最基本的是简单随机样本（SRS）：
若总体中每个元素被选中的概率相等，且每个大小为 n 的可能样本被选中的可能性相同，则该样本为简单随机样本。
示例：假设有 10 个信封，每个标有唯一字母（A-J），其中 4 个装有折扣券。研究人员无放回地抽取 4 个信封。若每组 4 个信封被选中的概率相等，则这是一个 SRS。有放回抽样允许同一个信封被多次抽取，以确保独立性。

多数现实样本并非简单随机样本

在应用研究中，获取真正的简单随机样本通常不切实际。即使在狭窄定义的场景中（如从单一大学抽取学生），参与者也未必能真正代表目标总体的随机子集。因此，研究人员常依赖其他抽样策略，以下概述几种关键方法：

分层抽样

在分层抽样中，总体按已知特征（如地理位置、收入阶层或临床诊断）划分为互斥的子组（层），然后从每个层中随机抽样。这比简单随机抽样更高效，尤其当某些子组较罕见时。
示例：在评估工业污染健康影响的环境研究中，从整个城市随机抽样可能导致居住在污染源附近的参与者极少。为更好理解暴露影响，研究人员可将总体分为居住在工业区附近和较远的群体，然后对高暴露区域的个体进行过采样（有意过度代表）。

雪球抽样

当目标总体隐蔽或难以接触时，常使用雪球抽样。该方法从识别少量合格参与者开始，然后请他们推荐其他符合条件的人，如此递归直至达到所需样本量。
示例：在城市无家可归者研究中，研究人员可能先访谈少量街头流浪者，再请每位参与者推荐其他愿意参与的人，使样本通过人际网络扩展。
雪球抽样常用于研究流动性强或难以触及的群体，但其引入抽样偏差 —— 倾向于过度代表某些社交网络。

方便抽样

方便抽样指选择研究人员容易接触到的参与者，无论其代表性如何。这可能是心理学和社会科学中最常见的抽样形式。
示例：许多研究招募修读入门课程的本科生，这不仅将样本限制在狭窄的人口特征中，学生还可能因个人兴趣自行选择参与研究，引入更多偏差。
方便样本并非本质无效，但其推广性通常有限。研究人员必须仔细考虑其中的权衡，并在报告结果时透明说明抽样方法。

尽管简单随机样本仍是推断的黄金标准，但实际中很少能实现。研究人员常需在其他抽样方案中选择，每种方案各有优劣。认识抽样对推断的影响是开展可靠且可解释的统计分析的关键。

样本非随机是否重要？

情况并非绝对：有偏样本确实可能扭曲结论，但并非所有抽样偏差都有问题。

在某些情况下（如分层抽样），偏差是故意且已知的。这些技术通过确保子组的充分代表性，常能改善研究设计。此外，存在正式方法（本课程不涉及）可对这类偏差进行统计调整，使其影响降低。

核心观点是：随机抽样是手段而非目的。仅当有偏抽样方法对所研究的特定心理或科学现象引入扭曲时，才会成为问题。

示例：两项测量工作记忆容量的研究中，研究 1 从所有周一出生的人中随机抽样，研究 2 从单一国家人口中随机抽样。尽管研究 1 的限制看似随意，但尚无证据表明出生日期与工作记忆相关；而研究 2 可能引入无意的文化、教育或语言偏差 —— 这些因素可能影响记忆任务表现。矛盾的是，就所研究的认知特质而言，研究 1 的样本可能更能代表全球人口。

由此得出两条重要建议：

设计研究时，仔细考虑希望推广到的总体，并努力适当抽样。
评估使用方便样本的研究时，仅当能明确说明抽样程序如何引入相关偏差时，才进行实质性批判。

总体参数与样本统计量 Population Parameters and Sample Statistics

某概率分布（通常是正态分布），其总体均值 \(\mu = 100\)，总体标准差 \(\sigma = 15\)。这些值称为总体参数，描述完整分布的特征。

现从该分布中随机抽取 \(n = 100\) 人的样本，可能得到如下数据：\(102, 97, 88, 110, 93, …, 105, 99, 91\) 从该样本可计算样本统计量，如样本均值 \(\bar{x} = 98.5\) 和样本标准差 \(s = 15.9\)。由于抽样过程中的随机变异，这些值通常与真实总体参数略有差异。

样本统计量是总体参数的估计量：

总体均值 \(\mu\) 由样本均值 \(\bar{x}\) 估计；
总体方差 \(\sigma^{2}\) 由样本方差 \(s^{2}\) 估计。

大数定律 The Law of Large Numbers

当样本量 \(N \to \infty\) 时，样本均值 \(\bar{X}_{N} \to \mu\)（即真实总体均值）。

在前面的例子中，\(N = 100\) 的样本均值与真实总体均值较为接近。但在许多应用中，需要更高的精度。
自然的解决方案是收集更大的样本。例如，从 \(\mu = 100\)、\(\sigma = 15\) 的总体中抽取 \(N = 10,000\) 人的智商样本，其样本均值和标准差很可能非常接近总体值。

均值的抽样分布和其他变量的抽样分布Sampling Distribution of the Mean

“样本平均值”本身也是一种随机变量，而这种随机变量的分布，就叫做样本均值的抽样分布。

假设你有一个很大的总体，比如：

一整个城市学生的数学成绩（太多了，不可能全统计）

你每次：

随机挑出 5 个学生（这是你的“样本”）
记录这 5 个人的平均分
然后把样本扔掉，重新再挑另外 5 个人，再算一个平均分

你不断重复这个过程，比如上千次，就会得到很多个**“样本平均数”**。

这些“平均数”组成的分布，就是所谓的：样本均值的抽样分布

其他统计量的抽样分布

抽样分布不仅限于均值。任何样本统计量（如中位数、最大值或方差）都有对应的抽样分布，描述该统计量在重复样本中的变化。例如，若每次实验记录 5 个抽样个体的最大智商，则最大值得抽样分布往往右偏，因为最大值通常超过总体均值。

中心极限定理（CLT）

统计学的基本结论之一是中心极限定理（CLT），它描述了样本量增大时均值抽样分布的行为。

定理 1 蕴含三个关键事实：

\(\bar{X}_{N}\) 的抽样分布以真实均值 \(\mu\) 为中心；
抽样分布的标准差称为标准误（SE），即 \(SE = \frac{\sigma}{\sqrt{N}}\)；
当 N 增大时，无论原始总体分布形状如何，抽样分布近似正态。

这解释了为何正态分布在统计推断中如此普遍：即使总体非正态，随着 N 增大，均值的抽样分布仍趋向正态。这一性质使我们能利用正态分布近似构造置信区间和进行假设检验。

样本均值，样本方差估计总体均值，总体标准差(贝塞尔修正)

我们可以把 “总体” 想象成一个超大的班级，里面有所有学生；“样本” 就是从这个大班里抽出来的一小部分学生。

1. 估计总体均值

比如想知道整个大班学生的平均成绩（总体均值\(\mu\)），我们就抽 100 个学生（样本）来考试，算出这 100 人的平均分（样本均值\(\bar{X}\)，比如 98.5 分）。这个样本平均分就是对总体平均分的最佳猜测，这就是 “点估计”。
显然，真实总体均值 \(\mu\) 可能不同（如 97.2 或 103.5），但基于样本，当前最佳估计值即为样本均值本身。这是点估计的核心：使用从样本计算的统计量，对未知总体参数形成最佳猜测。具体可表示为：\(\hat{\mu} = \bar{X}\)。

2. 估计总体标准差（为什么要 “贝塞尔校正”）

标准差是用来衡量数据 “离散程度” 的，比如成绩是都集中在 90 分左右，还是有的考 100、有的考 50。

假如只抽 1 个学生（样本只有 1 个），成绩是 20 分。那样本均值是 20，样本标准差算出来是 0—— 但这显然不对，因为总体里肯定有其他分数，只看 1 个就说 “没差异”，是严重低估了实际的离散程度。
再比如抽 2 个学生，成绩 20 和 22，样本均值 21，按普通公式算标准差是 1，但这还是低估了总体的变异（因为总体里还有更多不同的分数）。

问题出在：用样本算标准差时，如果直接除以样本量n，会系统性地低估总体的真实变异。为了纠正这个偏差，就需要 “贝塞尔校正”—— 把分母从n改成\(n-1\)。

简单说，样本量越小，不校正的偏差越明显；通过除以\(n-1\)，能让样本标准差更准确地估计总体标准差。

因为从总体中抽样这个过程会让数据进一步集中，而低估总体方差（因为方差越大说明数据的离散程度越大）。所以为了增大样本方差，应该处以一个比n更小的数字，所以选择n-1

为什么除n-1而不是n-2、3…

因为用除以n-1的样本方差估计总体方差是无偏估计，并不说完全没有偏差，而是满足下面这个式子ES ^2..

置信区间估计 Confidence Interval

在应用统计中，点估计（如 \(\hat{\mu} = \bar{X}\)）为未知总体参数提供单个最佳猜测，但任何基于有限样本的估计都存在不确定性。仅有点估计无法说明该猜测的精确程度。

为此，我们引入置信区间概念：用样本数据，去估计总体参数（比如总体均值 μ）可能落在某个范围内，而不再是某个点，这种估计方法称为区间估计

区间估计：

置信度 1- /(alpha/) – 正确率
\显著性水平 /(alpha/) – 错误率

对于区间我们有两个要求：

可靠性
精度，要让这个区间尽可能的小

但这两个要求是矛盾的，提高精度，必然会降低可靠性，犯错的概率会变大。
在保证可靠性的前提下尽可能提高精度，因为其相比精度来说更重要，区间可以很宽泛，但至少不能错误率很大

它表达的是：

例：“我不确定总体参数到底是多少，但我可以说：我有 x% 的把握，它就在这个区间里。”

你抽取了一个样本，计算出平均身高是 170 cm，你希望估计整个学校男生的平均身高（μ）。

你可能会说：

“我不能确定 μ 是多少，但我有 95% 的信心，它落在 168 cm 到 172 cm 之间。”

这个 168,172 就是一个 95%置信区间。犯错率是5%

真实数据落在区间的正确率就是置信度，犯错率即不落在区间的正确率就是显著性水平