Estimation and Sampling Theory 估计与抽样理论
本文最后更新于28 天前,其中的信息可能已经过时,如有错误请留言

描述性统计
是在已经有全部数据的情况下,对这些数据进行总结、分析和呈现。
比如:你统计了全班学生的身高,然后算出平均身高、最大值、最小值,这就是描述性统计。

推断性统计
是在只拿到部分样本数据的前提下,去推测整个总体的情况
比如:你只随机量了全班 5 个同学的身高,就想估计全班的平均身高,这就是推断性统计。

实际上,研究人员几乎总是依赖样本 —— 即某个更大总体的有限子集。抽样理论通过明确如何从样本数据推断未知总体参数,架起了概率与推断之间的桥梁

统计学的两大基本问题:估计问题和假设检验问题,我们需要对我们说学习的统计学有个大体的框架,我们在算什么,在做什么,西面用一个例子讲清楚

你要采购10000个灯泡,老板要求这批灯泡的平均寿命必须大于4000h,这时你找到一个灯泡制作工厂
你并不知道这10000个灯泡的平均寿命是多少
我们知道最真实的平均寿命(被称为总体寿命)就是将这10000个灯泡全部测一遍寿命然后计算,但这不会破坏这些灯泡,所以我们需要估计总体寿命,所以我们从这10000个灯泡中采样100个灯泡,计算他们的平均寿命(被称为样本均值),通过计算我们得到一个平均寿命为4001h,

你抽了 100 个灯泡,算出样本均值\(\bar{X}=4001\)小时。但只报这个数老板不放心 ——“这 100 个能代表 10000 个吗?误差有多大?”

这时候就需要置信区间:它能告诉你 “总体均值大概率落在哪个范围里”。

假设我们算出样本标准差\(s=200\)小时(用贝塞尔校正后的无偏估计),根据统计学的中心极限定理,总体均值的 95% 置信区间公式为:

\(\bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}\)

(这里\(n=100\),\(n-1=99\),\(t_{\alpha/2}\)近似取 1.984,因为大样本下 t 分布接近正态分布)

代入计算:

\(4001 \pm 1.984 \cdot \frac{200}{\sqrt{100}} = 4001 \pm 1.984 \cdot 20 = 4001 \pm 39.68\)

95% 的置信区间是 (3961.32, 4040.68) 小时

它的含义是:“我们有 95% 的把握,这批 10000 个灯泡的真实平均寿命在 3961.32 到 4040.68 小时之间。” 这就把 “估计的不确定性” 量化了

以上是统计学的估计问题的解决过程,下面就是科学的决策到底要不要拒绝这批产品,在统计学中称为假设检验问题

老板要求 “平均寿命必须大于 4000h”,我们可以把它转化为假设检验

  • 原假设\(H_0\):总体平均寿命\(\mu \leq 4000\)(这批货不达标,该拒绝)
  • 备择假设\(H_1\):总体平均寿命\(\mu > 4000\)(这批货达标,该接受)

接下来需要判断:样本均值\(\bar{X}=4001\)是 “偶然出现”,还是 “足以证明总体确实 > 4000”。

步骤 1:计算检验统计量

用 t 统计量(因为总体标准差未知,用样本标准差代替):

\(t = \frac{\bar{X} – \mu_0}{s/\sqrt{n}} = \frac{4001 – 4000}{200/\sqrt{100}} = \frac{1}{20} = 0.05\)

步骤 2:确定 “拒绝域”

我们设定显著性水平\(\alpha=0.05\)(即允许第一类错误的概率为 5%)。对于单侧检验(因为只要\(\mu>4000\)就达标),查 t 分布表(自由度 99),得临界值\(t_{0.05}(99) \approx 1.66\)。

如果计算的\(t > 1.66\),就拒绝\(H_0\)(认为达标);否则不拒绝\(H_0\)(认为不达标)。

这里我们的\(t=0.05 < 1.66\),所以不拒绝原假设\(H_0\)—— 也就是说,目前的样本证据不足以证明这批灯泡平均寿命 > 4000h,需要谨慎决策。

但是问题在于我们用100个样本点估计的值可能是错误的 ,但同时也有可能恰好是准确的,这里就引入了2个错误
假设你是概率之神,知道总体均值的值
第一类错误即估计值4001h是不准确的结果(真实为3900h)但你选择采用
这批灯泡真实平均寿命≤4000h(不达标),但我们错误地认为它 > 4000h 并采购了 —— 后果是买到次品,损失成本。
第二类错误即估计值40001h是准确的结果(真实也为4001h)但你选择不采用
这批灯泡真实平均寿命 > 4000h(达标),但我们错误地认为它≤4000h 并拒绝了 —— 后果是错过好货,损失商机。
我们在做决策时都有可能烦以上两个错误之一,但是我们尽可能的降低犯错的概率

统计学中,α 和 β 此消彼长:如果我们把 α 设得很小(比如 0.01),减少 “错买次品” 的概率,但会增加 “错拒好货” 的 β;反之如果 α 设得大(比如 0.1),减少 β,但增加 α。

在这个灯泡例子中,老板可能更怕 “买到次品”,所以会把 α 设得小一些(比如 0.01),宁愿多拒绝一些可能达标的批次,也要降低买到次品的风险。

总结:统计学框架的核心逻辑

  • 估计问题:用样本算 “点估计”(如样本均值),再用 “置信区间” 量化估计的可靠性,回答 “总体参数大概在哪,准不准”。
  • 假设检验问题:先提出关于总体的 “假设”,再用样本证据判断 “是否有足够理由推翻原假设”,回答 “决策是否合理”。
  • 两类错误与权衡:明确决策的风险,根据实际场景(怕错买还是怕错拒)调整 α,让统计决策服务于业务目标。

抽样方法

简单随机样本

抽样方法定义了如何选择样本。最基本的是简单随机样本(SRS):
若总体中每个元素被选中的概率相等,且每个大小为 n 的可能样本被选中的可能性相同,则该样本为简单随机样本。
示例:假设有 10 个信封,每个标有唯一字母(A-J),其中 4 个装有折扣券。研究人员无放回地抽取 4 个信封。若每组 4 个信封被选中的概率相等,则这是一个 SRS。有放回抽样允许同一个信封被多次抽取,以确保独立性。

多数现实样本并非简单随机样本

在应用研究中,获取真正的简单随机样本通常不切实际。即使在狭窄定义的场景中(如从单一大学抽取学生),参与者也未必能真正代表目标总体的随机子集。因此,研究人员常依赖其他抽样策略,以下概述几种关键方法:

分层抽样

在分层抽样中,总体按已知特征(如地理位置、收入阶层或临床诊断)划分为互斥的子组(层),然后从每个层中随机抽样。这比简单随机抽样更高效,尤其当某些子组较罕见时。
示例:在评估工业污染健康影响的环境研究中,从整个城市随机抽样可能导致居住在污染源附近的参与者极少。为更好理解暴露影响,研究人员可将总体分为居住在工业区附近和较远的群体,然后对高暴露区域的个体进行过采样(有意过度代表)。

雪球抽样

当目标总体隐蔽或难以接触时,常使用雪球抽样。该方法从识别少量合格参与者开始,然后请他们推荐其他符合条件的人,如此递归直至达到所需样本量。
示例:在城市无家可归者研究中,研究人员可能先访谈少量街头流浪者,再请每位参与者推荐其他愿意参与的人,使样本通过人际网络扩展。
雪球抽样常用于研究流动性强或难以触及的群体,但其引入抽样偏差 —— 倾向于过度代表某些社交网络。

方便抽样

方便抽样指选择研究人员容易接触到的参与者,无论其代表性如何。这可能是心理学和社会科学中最常见的抽样形式。
示例:许多研究招募修读入门课程的本科生,这不仅将样本限制在狭窄的人口特征中,学生还可能因个人兴趣自行选择参与研究,引入更多偏差。
方便样本并非本质无效,但其推广性通常有限。研究人员必须仔细考虑其中的权衡,并在报告结果时透明说明抽样方法。

尽管简单随机样本仍是推断的黄金标准,但实际中很少能实现。研究人员常需在其他抽样方案中选择,每种方案各有优劣。认识抽样对推断的影响是开展可靠且可解释的统计分析的关键。

样本非随机是否重要?

情况并非绝对:有偏样本确实可能扭曲结论,但并非所有抽样偏差都有问题。

在某些情况下(如分层抽样),偏差是故意且已知的。这些技术通过确保子组的充分代表性,常能改善研究设计。此外,存在正式方法(本课程不涉及)可对这类偏差进行统计调整,使其影响降低。

核心观点是:随机抽样是手段而非目的。仅当有偏抽样方法对所研究的特定心理或科学现象引入扭曲时,才会成为问题。

示例:两项测量工作记忆容量的研究中,研究 1 从所有周一出生的人中随机抽样,研究 2 从单一国家人口中随机抽样。尽管研究 1 的限制看似随意,但尚无证据表明出生日期与工作记忆相关;而研究 2 可能引入无意的文化、教育或语言偏差 —— 这些因素可能影响记忆任务表现。矛盾的是,就所研究的认知特质而言,研究 1 的样本可能更能代表全球人口。

由此得出两条重要建议:

  • 设计研究时,仔细考虑希望推广到的总体,并努力适当抽样。
  • 评估使用方便样本的研究时,仅当能明确说明抽样程序如何引入相关偏差时,才进行实质性批判。

总体参数与样本统计量 Population Parameters and Sample Statistics

某概率分布(通常是正态分布),其总体均值 \(\mu = 100\),总体标准差 \(\sigma = 15\)。这些值称为总体参数,描述完整分布的特征。

现从该分布中随机抽取 \(n = 100\) 人的样本,可能得到如下数据:\(102, 97, 88, 110, 93, …, 105, 99, 91\) 从该样本可计算样本统计量,如样本均值 \(\bar{x} = 98.5\) 和样本标准差 \(s = 15.9\)。由于抽样过程中的随机变异,这些值通常与真实总体参数略有差异。

样本统计量是总体参数的估计量:

  • 总体均值 \(\mu\) 由样本均值 \(\bar{x}\) 估计;
  • 总体方差 \(\sigma^{2}\) 由样本方差 \(s^{2}\) 估计。

大数定律 The Law of Large Numbers

当样本量 \(N \to \infty\) 时,样本均值 \(\bar{X}_{N} \to \mu\)(即真实总体均值)。

在前面的例子中,\(N = 100\) 的样本均值与真实总体均值较为接近。但在许多应用中,需要更高的精度。
自然的解决方案是收集更大的样本。例如,从 \(\mu = 100\)、\(\sigma = 15\) 的总体中抽取 \(N = 10,000\) 人的智商样本,其样本均值和标准差很可能非常接近总体值。

均值的抽样分布和其他变量的抽样分布Sampling Distribution of the Mean

“样本平均值”本身也是一种随机变量,而这种随机变量的分布,就叫做样本均值的抽样分布

假设你有一个很大的总体,比如:

一整个城市学生的数学成绩(太多了,不可能全统计)

你每次:

  • 随机挑出 5 个学生(这是你的“样本”)
  • 记录这 5 个人的平均分
  • 然后把样本扔掉,重新再挑另外 5 个人,再算一个平均分

你不断重复这个过程,比如上千次,就会得到很多个**“样本平均数”**。

这些“平均数”组成的分布,就是所谓的:样本均值的抽样分布

其他统计量的抽样分布

抽样分布不仅限于均值。任何样本统计量(如中位数、最大值或方差)都有对应的抽样分布,描述该统计量在重复样本中的变化。例如,若每次实验记录 5 个抽样个体的最大智商,则最大值得抽样分布往往右偏,因为最大值通常超过总体均值。

中心极限定理(CLT)

统计学的基本结论之一是中心极限定理(CLT),它描述了样本量增大时均值抽样分布的行为。

定理 1 蕴含三个关键事实:

  1. \(\bar{X}_{N}\) 的抽样分布以真实均值 \(\mu\) 为中心;
  2. 抽样分布的标准差称为标准误(SE),即 \(SE = \frac{\sigma}{\sqrt{N}}\);
  3. 当 N 增大时,无论原始总体分布形状如何,抽样分布近似正态。

这解释了为何正态分布在统计推断中如此普遍:即使总体非正态,随着 N 增大,均值的抽样分布仍趋向正态。这一性质使我们能利用正态分布近似构造置信区间和进行假设检验。

样本均值,样本方差估计总体均值,总体标准差(贝塞尔修正)

我们可以把 “总体” 想象成一个超大的班级,里面有所有学生;“样本” 就是从这个大班里抽出来的一小部分学生。

1. 估计总体均值

比如想知道整个大班学生的平均成绩(总体均值\(\mu\)),我们就抽 100 个学生(样本)来考试,算出这 100 人的平均分(样本均值\(\bar{X}\),比如 98.5 分)。这个样本平均分就是对总体平均分的最佳猜测,这就是 “点估计”。
显然,真实总体均值 \(\mu\) 可能不同(如 97.2 或 103.5),但基于样本,当前最佳估计值即为样本均值本身。这是点估计的核心:使用从样本计算的统计量,对未知总体参数形成最佳猜测。具体可表示为:\(\hat{\mu} = \bar{X}\)。

2. 估计总体标准差(为什么要 “贝塞尔校正”)

标准差是用来衡量数据 “离散程度” 的,比如成绩是都集中在 90 分左右,还是有的考 100、有的考 50。

  • 假如只抽 1 个学生(样本只有 1 个),成绩是 20 分。那样本均值是 20,样本标准差算出来是 0—— 但这显然不对,因为总体里肯定有其他分数,只看 1 个就说 “没差异”,是严重低估了实际的离散程度。
  • 再比如抽 2 个学生,成绩 20 和 22,样本均值 21,按普通公式算标准差是 1,但这还是低估了总体的变异(因为总体里还有更多不同的分数)。

问题出在:用样本算标准差时,如果直接除以样本量n,会系统性地低估总体的真实变异。为了纠正这个偏差,就需要 “贝塞尔校正”—— 把分母从n改成\(n-1\)。

简单说,样本量越小,不校正的偏差越明显;通过除以\(n-1\),能让样本标准差更准确地估计总体标准差

因为从总体中抽样这个过程会让数据进一步集中,而低估总体方差(因为方差越大说明数据的离散程度越大)。所以为了增大样本方差,应该处以一个比n更小的数字,所以选择n-1

为什么除n-1而不是n-2、3…

因为用除以n-1的样本方差估计总体方差是无偏估计,并不说完全没有偏差,而是满足下面这个式子ES ^2..

置信区间估计 Confidence Interval

在应用统计中,点估计(如 \(\hat{\mu} = \bar{X}\))为未知总体参数提供单个最佳猜测,但任何基于有限样本的估计都存在不确定性。仅有点估计无法说明该猜测的精确程度。

为此,我们引入置信区间概念:用样本数据,去估计总体参数(比如总体均值 μ)可能落在某个范围内,而不再是某个点,这种估计方法称为区间估计

区间估计:

  • 置信度 1- /(alpha/) – 正确率
  • \显著性水平 /(alpha/) – 错误率

对于区间我们有两个要求:

  • 可靠性
  • 精度,要让这个区间尽可能的小

但这两个要求是矛盾的,提高精度,必然会降低可靠性,犯错的概率会变大。
在保证可靠性的前提下尽可能提高精度,因为其相比精度来说更重要,区间可以很宽泛,但至少不能错误率很大

它表达的是:

例:“我不确定总体参数到底是多少,但我可以说:我有 x% 的把握,它就在这个区间里。”

你抽取了一个样本,计算出平均身高是 170 cm,你希望估计整个学校男生的平均身高(μ)。

你可能会说:

“我不能确定 μ 是多少,但我有 95% 的信心,它落在 168 cm 到 172 cm 之间。”

这个 168,172 就是一个 95%置信区间。犯错率是5%

真实数据落在区间的正确率就是置信度,犯错率即不落在区间的正确率就是显著性水平

构造均值的置信区间(方差已知)

我们的确无法写出目标式子即u的范围,但是我们知道其Z分布的范围,只要将其不等式中间的Z换回u就可以得到u的范围了
不管什么未知,目标是一致的,就是写出下面这个式子

构造均值的置信区间(方差未知)

构造总体均值 \(\mu\) 的置信区间时,方法取决于总体标准差 \(\sigma\) 是否已知:

正态总体下σ² 的区间估计(置信区间) (均值已知)

σ² 的置信区间(均值未知)

置信区间公式总结

学习笔记如有侵权,请提醒我,我会马上删除
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇