Estimation and Sampling Theory 估计与抽样理论

描述性统计
是在已经有全部数据的情况下,对这些数据进行总结、分析和呈现。
比如:你统计了全班学生的身高,然后算出平均身高、最大值、最小值,这就是描述性统计。

推断性统计
是在只拿到部分样本数据的前提下,去推测整个总体的情况
比如:你只随机量了全班 5 个同学的身高,就想估计全班的平均身高,这就是推断性统计。

样本、总体与抽样理论

实际上,研究人员几乎总是依赖样本 —— 即某个更大总体的有限子集。抽样理论通过明确如何从样本数据推断未知总体参数,架起了概率与推断之间的桥梁。

简单随机样本

抽样方法定义了如何选择样本。最基本的是简单随机样本(SRS):
若总体中每个元素被选中的概率相等,且每个大小为 n 的可能样本被选中的可能性相同,则该样本为简单随机样本。
示例:假设有 10 个信封,每个标有唯一字母(A-J),其中 4 个装有折扣券。研究人员无放回地抽取 4 个信封。若每组 4 个信封被选中的概率相等,则这是一个 SRS。有放回抽样允许同一个信封被多次抽取,以确保独立性。

多数现实样本并非简单随机样本

在应用研究中,获取真正的简单随机样本通常不切实际。即使在狭窄定义的场景中(如从单一大学抽取学生),参与者也未必能真正代表目标总体的随机子集。因此,研究人员常依赖其他抽样策略,以下概述几种关键方法:

分层抽样

在分层抽样中,总体按已知特征(如地理位置、收入阶层或临床诊断)划分为互斥的子组(层),然后从每个层中随机抽样。这比简单随机抽样更高效,尤其当某些子组较罕见时。
示例:在评估工业污染健康影响的环境研究中,从整个城市随机抽样可能导致居住在污染源附近的参与者极少。为更好理解暴露影响,研究人员可将总体分为居住在工业区附近和较远的群体,然后对高暴露区域的个体进行过采样(有意过度代表)。

雪球抽样

当目标总体隐蔽或难以接触时,常使用雪球抽样。该方法从识别少量合格参与者开始,然后请他们推荐其他符合条件的人,如此递归直至达到所需样本量。
示例:在城市无家可归者研究中,研究人员可能先访谈少量街头流浪者,再请每位参与者推荐其他愿意参与的人,使样本通过人际网络扩展。
雪球抽样常用于研究流动性强或难以触及的群体,但其引入抽样偏差 —— 倾向于过度代表某些社交网络。

方便抽样

方便抽样指选择研究人员容易接触到的参与者,无论其代表性如何。这可能是心理学和社会科学中最常见的抽样形式。
示例:许多研究招募修读入门课程的本科生,这不仅将样本限制在狭窄的人口特征中,学生还可能因个人兴趣自行选择参与研究,引入更多偏差。
方便样本并非本质无效,但其推广性通常有限。研究人员必须仔细考虑其中的权衡,并在报告结果时透明说明抽样方法。

尽管简单随机样本仍是推断的黄金标准,但实际中很少能实现。研究人员常需在其他抽样方案中选择,每种方案各有优劣。认识抽样对推断的影响是开展可靠且可解释的统计分析的关键。

样本非随机是否重要?

情况并非绝对:有偏样本确实可能扭曲结论,但并非所有抽样偏差都有问题。

在某些情况下(如分层抽样),偏差是故意且已知的。这些技术通过确保子组的充分代表性,常能改善研究设计。此外,存在正式方法(本课程不涉及)可对这类偏差进行统计调整,使其影响降低。

核心观点是:随机抽样是手段而非目的。仅当有偏抽样方法对所研究的特定心理或科学现象引入扭曲时,才会成为问题。

示例:两项测量工作记忆容量的研究中,研究 1 从所有周一出生的人中随机抽样,研究 2 从单一国家人口中随机抽样。尽管研究 1 的限制看似随意,但尚无证据表明出生日期与工作记忆相关;而研究 2 可能引入无意的文化、教育或语言偏差 —— 这些因素可能影响记忆任务表现。矛盾的是,就所研究的认知特质而言,研究 1 的样本可能更能代表全球人口。

由此得出两条重要建议:

  • 设计研究时,仔细考虑希望推广到的总体,并努力适当抽样。
  • 评估使用方便样本的研究时,仅当能明确说明抽样程序如何引入相关偏差时,才进行实质性批判。

总体参数与样本统计量 Population Parameters and Sample Statistics

心理学家可能将所有个体的智商分数视为总体,统计学家则用概率分布(通常是正态分布)表示该总体,其总体均值 \(\mu = 100\),总体标准差 \(\sigma = 15\)。这些值称为总体参数,描述完整分布的特征。

现从该分布中随机抽取 \(n = 100\) 人的样本,可能得到如下智商分数列表:\(102, 97, 88, 110, 93, …, 105, 99, 91\) 从该样本可计算样本统计量,如样本均值 \(\bar{x} = 98.5\) 和样本标准差 \(s = 15.9\)。由于抽样过程中的随机变异,这些值通常与真实总体参数略有差异。

样本统计量是总体参数的估计量:

  • 总体均值 \(\mu\) 由样本均值 \(\bar{x}\) 估计;
  • 总体方差 \(\sigma^{2}\) 由样本方差 \(s^{2}\) 估计。

大数定律 The Law of Large Numbers

当样本量 \(N \to \infty\) 时,样本均值 \(\bar{X}_{N} \to \mu\)(即真实总体均值)。

在前面的例子中,\(N = 100\) 的样本均值与真实总体均值较为接近。但在许多应用中,需要更高的精度。
自然的解决方案是收集更大的样本。例如,从 \(\mu = 100\)、\(\sigma = 15\) 的总体中抽取 \(N = 10,000\) 人的智商样本,其样本均值和标准差很可能非常接近总体值。

均值的抽样分布和其他变量的抽样分布Sampling Distribution of the Mean

“样本平均值”本身也是一种随机变量,而这种随机变量的分布,就叫做样本均值的抽样分布

假设你有一个很大的总体,比如:

一整个城市学生的数学成绩(太多了,不可能全统计)

你每次:

  • 随机挑出 5 个学生(这是你的“样本”)
  • 记录这 5 个人的平均分
  • 然后把样本扔掉,重新再挑另外 5 个人,再算一个平均分

你不断重复这个过程,比如上千次,就会得到很多个**“样本平均数”**。

这些“平均数”组成的分布,就是所谓的:样本均值的抽样分布

其他统计量的抽样分布

抽样分布不仅限于均值。任何样本统计量(如中位数、最大值或方差)都有对应的抽样分布,描述该统计量在重复样本中的变化。例如,若每次实验记录 5 个抽样个体的最大智商,则最大值得抽样分布往往右偏,因为最大值通常超过总体均值。

中心极限定理(CLT)

统计学的基本结论之一是中心极限定理(CLT),它描述了样本量增大时均值抽样分布的行为。

定理 1 蕴含三个关键事实:

  1. \(\bar{X}_{N}\) 的抽样分布以真实均值 \(\mu\) 为中心;
  2. 抽样分布的标准差称为标准误(SE),即 \(SE = \frac{\sigma}{\sqrt{N}}\);
  3. 当 N 增大时,无论原始总体分布形状如何,抽样分布近似正态。

这解释了为何正态分布在统计推断中如此普遍:即使总体非正态,随着 N 增大,均值的抽样分布仍趋向正态。这一性质使我们能利用正态分布近似构造置信区间和进行假设检验。

估计总体均值,总体标准差

项目意思方差是多少
单个数据 X从总体中随机抽一个数\(\sigma^2\)
样本均值 Xˉ\bar{X}抽 n个数据后求平均\(\frac{\sigma^2}{n}\)

假设从某多语言城市学区抽取 100 人进行智商测试,平均分为 \(\bar{X} = 98.5\)。显然,真实总体均值 \(\mu\) 可能不同(如 97.2 或 103.5),但基于样本,当前最佳估计值即为样本均值本身。这是点估计的核心:使用从样本计算的统计量,对未知总体参数形成最佳猜测。具体可表示为:\(\hat{\mu} = \bar{X}\)

估计均值相对直接,但标准差的情况更复杂。假设收集一个仅含单个观察值的样本(如清晰度得分为 20),则:

  • 样本均值 \(\bar{X} = 20\);
  • 样本标准差 \(s = 0\)。

这准确反映了样本(无变异),但严重低估了总体的变异性 —— 显然,单个观察值不足以衡量离散程度。

扩展示例,若观察两个值 20 和 22,则 \(\bar{X} = 21\),样本标准差 \(s = 1\)。但我们仍怀疑这低估了总体变异性 —— 事实确实如此。

一般而言,样本标准差 s 的计算公式为:\(s = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (X_{i} – \bar{X})^{2}}\)

它是总体标准差 \(\sigma\) 的有偏估计量。偏差源于平方偏差使用 n 而非 \(n-1\) 求平均,系统性低估了真实方差。实际上,样本方差的期望为:\(\mathbb{E}[s^{2}] = \frac{n-1}{n} \sigma^{2}\)

对任何有限 n,该值严格小于 \(\sigma^{2}\)。因此,\(s^{2}\) 是 \(\sigma^{2}\) 的有偏估计量。为消除偏差,使用贝塞尔校正,定义无偏样本方差为:$$\hat{\sigma}^{2} = \frac{1}{n-1} \sum_{i=1}^{n} (X_{i} – \bar{X})^{2}$$

置信区间估计 Confidence Interval

在应用统计中,点估计(如 \(\hat{\mu} = \bar{X}\))为未知总体参数提供单个最佳猜测,但任何基于有限样本的估计都存在不确定性。仅有点估计无法说明该猜测的精确程度。

为此,我们引入置信区间概念:用样本数据,去估计总体参数(比如总体均值 μ)可能落在某个范围内,而不再是某个点

它表达的是:

例:“我不确定总体参数到底是多少,但我可以说:我有 x% 的把握,它就在这个区间里。”

你抽取了一个样本,计算出平均身高是 170 cm,你希望估计整个学校男生的平均身高(μ)。

你可能会说:

“我不能确定 μ 是多少,但我有 95% 的信心,它落在 168 cm 到 172 cm 之间。”

这个 168,172 就是一个 95%置信区间。犯错率是5%

真实数据落在区间的正确率就是置信度,犯错率即不落在区间的正确率就是显著性水平

构造均值的置信区间(方差已知)

不管什么未知,目标是一致的,就是写出下面这个式子

学生 t 分布

方差未知的正态总体中估计均值时,使用学生 t 分布

构造 μ 的置信区间(方差未知)

构造总体均值 \(\mu\) 的置信区间时,方法取决于总体标准差 \(\sigma\) 是否已知:

构造标准差的置信区间

σ² 的置信区间

σ 的置信区间

置信区间公式总结

学习笔记如有侵权,请提醒我,我会马上删除
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇