假设检验Hypothesis Testing – Skyshin34的博客

本文最后更新于13 天前，其中的信息可能已经过时，如有错误请留言

统计学的两个基本问题：

估计问题：用样本算 “点估计”（如样本均值），再用 “置信区间” 量化估计的可靠性，回答 “总体参数大概在哪，准不准”
假设检验问题：假设检验是检验某个关于总体参数（比如均值、比例等）是否成立的方法。先提出关于总体的 “假设”，再用样本证据判断 “是否有足够理由推翻原假设”，回答 “决策是否合理”

要采购 10000 个灯泡，老板要求这批灯泡的平均寿命必须大于 4000h。我们无法直接得知这 10000 个灯泡的真实平均寿命（即总体寿命）—— 若要获取准确的总体寿命，需要将这 10000 个灯泡全部点亮至熄灭，逐个测试寿命后计算平均值。但灯泡寿命测试是典型的破坏性试验，测试后的灯泡会完全报废，既不现实也会产生极高成本，因此我们需要通过抽样的方式来估计总体寿命

估计问题（点估计，区间估计）

我们从 10000 个灯泡中随机抽取 100 个作为样本，测试并计算出这 100 个灯泡的平均寿命，这个数值被称为样本均值，最终得到样本均值\(\bar{X}=4001\ \text{h}\)。

如果采用点估计的方法，直接用 4001h 这个样本均值来代表 10000 个灯泡的总体寿命，老板大概率会产生顾虑：“这 100 个灯泡的情况，真的能代表剩下 9900 个灯泡吗？这个估计值的误差到底有多大？

这时候就需要用到区间估计的方法，核心工具就是置信区间。它不再给出一个单一的估计数值，而是能明确告诉我们：“在一定的置信水平下，这批灯泡的总体均值大概率会落在某个范围之内”。

置信区间的理论依据是样本均值的抽样分布：如果我们从这 10000 个灯泡中，反复抽取多组容量为 100 的样本，每组都计算出一个样本均值，然后以样本均值为横坐标、以对应均值出现的频次为纵坐标绘制图形，会得到一个样本均值的分布折线图。当样本量足够大时，这个分布会趋近于正态分布，这也是我们计算置信区间的关键前提。

即95% 的置信区间是 (3961.32, 4040.68) 小时。

它的含义是：“我们有 95% 的把握，这批 10000 个灯泡的真实平均寿命在 3961.32 到 4040.68 小时之间。” 这就把 “估计的不确定性” 量化了

假设检验问题：

老板要求 “平均寿命必须大于 4000h”，我们可以把它转化为假设检验：

原假设\(H_0\)：总体平均寿命\(\mu \leq 4000\)（这批货不达标，该拒绝）
备择假设\(H_1\)：总体平均寿命\(\mu > 4000\)（这批货达标，该接受）

接下来需要判断：样本均值\(\bar{X}=4001\)是 “偶然出现”，还是 “足以证明总体确实 > 4000”

QA：回归检验也要求H1和H0互补吧，可是有的题目并没有互斥互补只是互斥关系

步骤 1：计算检验统计量

这步的作用是便于找到拒绝域的具体范围，可以发现我们需要计算究竟横坐标具体为多少时，最左侧/最右侧到该点的频率和为5%，为了方便计算，我们将其转化为已知分布，这样很容易就能找到5%所对应的横坐标

用 t 统计量（因为总体标准差未知，用样本标准差代替）：

\(t = \frac{\bar{X} – \mu_0}{s/\sqrt{n}} = \frac{4001 – 4000}{200/\sqrt{100}} = \frac{1}{20} = 0.05\)

步骤 2：确定 “拒绝域”

我们设定显著性水平\(\alpha=0.05\)（即允许第一类错误的概率为 5%）。对于单侧检验（因为只要\(\mu>4000\)就达标），查 t 分布表（自由度 99），得临界值\(t_{0.05}(99) \approx 1.66\)。

如果计算的\(t > 1.66\)，就拒绝\(H_0\)（认为达标）；否则不拒绝\(H_0\)（认为不达标）。

这里我们的\(t=0.05 < 1.66\)，所以不拒绝原假设\(H_0\)—— 也就是说，目前的样本证据不足以证明这批灯泡平均寿命 > 4000h，需要谨慎决策。

原假设，备选假设，两类错误

先对总体分布中某些未知参数作某种假设，然后由所抽取的样本构造合适的统计量，对假设的真伪进行判断，并作出接受或拒绝决定的问题，称为假设检验。提出的假设称为原假设，记作\(H_0\)，与原假设对立的假设称为备择假设，记作\(H_1\)

H₀（原假设 Null）：默认成立的假设。
Hₐ（备择假设 Alternative）：希望提供证据支持的假设（备择假设取决于当我们想要哪一个方向的结论）

两类错误：

第一类错误（弃真错误）：\(H_0\)实际正确，拒绝\(H_0\)；
第二类错误（存伪错误）：\(H_0\)实际错误，接受\(H_0\)。

**α 和 β 此消彼长**：如果我们把 α 设得很小（比如 0.01），减少 “错买次品” 的概率，但会增加 “错拒好货” 的β；反之如果 α 设得大（比如 0.1），减少 β，但增加α

两类错误不会同时发生。
第一类错误仅在原假设为真时发生，第二类错误仅在原假设为假时发生。
第一类错误概率（\(\alpha\)）增大时，第二类错误概率（\(\beta\)）会减小，反之亦然。
两类错误相互排斥：误拒原假设仅会导致第一类错误，误判不拒绝原假设仅会导致第二类错误。
原则上，完全消除这两种错误的唯一方法是观察整个总体。实际上，这是不可行的，我们必须使用样本并管理这些风险。

决策过程与逻辑

假设检验是一种使用样本数据来决定是否拒绝 \(H_{0}\) 的程序，其逻辑如下：

假设 \(H_{0}\) 为真。
确定观察到与实际所见一样极端（或更极端）的数据的可能性有多大。
如果这个概率很小，我们就拒绝 \(H_{0}\) 而支持 \(H_{a}\)。

假设检验的基本思想（“女士品茶”）：“小概率事件原理”，即小概率事件在一次试验中几乎不可能发生，如果发生，则有理由认为假设不成立，从而拒绝假设。
女士品茶大致的思路是H0:女士没有那个能力，H1:女士有那个能力，这个顺序不能反，因为如果假设女士有这个能力那6次他的正确率是100%，这不合理，现在她有50%的概率蒙对。
在H0的前提下，实验结果说明他只有1/2 ^6的概率能连续正确，小概率事件发生了，说明H0是错误的

significance level 显著性水平 Confidence Interval 置信区间(CI)

区间估计

在应用统计中，点估计（如 \(\hat{\mu} = \bar{X}\)）为未知总体参数提供单个最佳猜测，但任何基于有限样本的估计都存在不确定性。仅有点估计无法说明该猜测的精确程度。

为此，我们引入置信区间概念：用样本数据，去估计总体参数（比如总体均值 μ）可能落在某个范围内，而不再是某个点，这种估计方法称为区间估计

“我不确定总体参数到底是多少，但我可以说：我有 x% 的把握，它就在这个区间里。”

例如：你抽取了一个样本，计算出平均身高是 170 cm，你希望估计整个学校男生的平均身高（μ）
“我不能确定 μ 是多少，但我有 95% 的信心，它落在 168 cm 到 172 cm 之间。”
这个 168,172 就是一个 95%置信区间。犯错率是5%

置信水平(度)confidence level ，显著性水平significance level

真实数据落在区间的正确率就是置信水平，犯错率即不落在区间的正确率就是显著性水平

置信度1−α：指在重复抽样条件下，由样本构造的置信区间能够包含总体真实参数的概率
显著性水平α：指在假设检验中，当原假设 H₀ 为真时，错误拒绝 H₀ 的最大允许概率（即第一类错误概率）。

注：假设检验只通过一组样本值进行，在数学上并不能证明一个命题一定成立，但可以作为反例推翻一个命题。当检验统计量 T 落入拒绝域而拒绝原假设 H0 时，我们把握是比较大的。而当检验统计量 T 未落入拒绝域，严格意义上称为 “没有充分理由拒绝”，所以认为 H0 成立。

置信区间 confidence intervals（需要例题）

在一定置信水平下（比如 95%），用来估计总体参数真实值的一个区间范围

参数θ的100(1−α)%置信区间公式：

证明过程

我们的确无法写出目标式子即u的范围，但是我们知道其Z分布的范围，只要将其不等式中间的Z换回u就可以得到u的范围了
不管什么未知，目标是一致的，就是写出下面这个式子

P值

定义：检验的 P 值是指，在原假设H0成立的条件下，检验统计量取到与观测值相等或更极端值的概率。

P 值为检验统计量概率密度函数曲线下，观测值及更极端值对应的面积。

假如我把\(\alpha\) 取得很大、很小、再很小一点……
到底从哪个临界点开始，我会拒绝 H_0？

假设检验的步骤

提出原假设\(H_0\)和备择假设\(H_1\)；
选取适当的检验统计量T，在\(H_0\)成立的条件下求出其分布；
根据给出的显著性水平\(\alpha\)求出拒绝域；
用样本观测值计算T的统计值，若落在拒绝域内，则拒绝原假设\(H_0\)，否则接受原假设\(H_0\)。

使用 t 检验的情况：

总体近似正态，或
样本量足够大（n≥30），以便中心极限定理适用

关于用F分布进行两个总体的方差检验的补充：

计算时将两个样本方差 \(s_1^2\) 和 \(s_2^2\) 中较大的那个作为分子，较小的作为分母，公式为：

卡方检验

The Chi-Square Distribution 卡方分布

卡方（χ2）分布的形态取决于自由度的大小
卡方分布是一个分布族（包含多种不同自由度的卡方分布）
卡方分布呈右偏态
卡方分布的取值非负

用于检测观察到的类别变量的分布是否与期望的不同

卡方检验适合的数据类型

要学卡方检验，得先知道它针对的是什么数据 —— 这类数据来自 “多项分布实验”，简单说就是满足 3 个条件的重复事件：

重复做 n 次相同的事（比如掷 100 次骰子、统计 1 年 4 个季度的客服电话）；
每次事件有 k 种可能结果（掷骰子有 6 种结果、季度有 4 种结果），且每种结果的概率固定（比如正常骰子每个面概率都是 1/6），所有概率加起来等于 1；
每次结果互不影响（这次掷骰子的结果不影响下次）

举个最直观的例子：掷骰子

做 100 次（n=100），每次有 6 种结果（k=6），每种结果概率 1/6，且每次独立 —— 这就是典型的多项分布实验。
还有个特殊情况：如果 k=2（比如抛硬币，只有 “正面”“反面” 2 种结果），那就是我们更熟悉的 “二项分布实验”（比如抛 10 次硬币，统计正面出现次数）

卡方检验的拒绝域永远是在单侧且在右尾，如果我们与Z检验（正态分布）对比的话，同时还有与Z检验很相近的t检验：

卡方拟合优度检验 chi-square goodness of fit test

判断观测到的样本数据分布，是否与我们预期的理论分布一致
比如抛 100 次硬币，预期正面、反面各出现 50 次（理论分布是均匀分布），但实际只出现了 40 次正面、60 次反面。卡方拟合优度检验就会计算 “实际次数与预期次数的差异”，判断这个差异是不是大到足以说明 “硬币不均匀”

流程：

零假设：我们先假设 “实际和预期一致”（比如骰子均匀、电话季度均匀）

根据观测值和期望值计算卡方值

把每种结果的 “实际与预期的差距平方后，除以预期值”，再把所有结果的这个值加起来

\[\chi^{2} = \sum_{i=1}^{k} \frac{(f_{i} – E_{i})^{2}}{E_{i}}\]

fi：实际观察到的次数（频数）
比如掷 100 次骰子，“1 点” 实际出现 15 次

Ei：理论预期的次数
比如均匀骰子掷 100 次，每个点预期出现 100×1/6≈16.67 次

可能会遇到期望不均分的情况，此时的做法：

期望均等：比如假设 “四类运动频率的人数应该一样多”，100 人就会期望每类 25 人；

期望不均分（图里的情况）：不是平均分配，而是按照给定的比例（50%/30%/10%/10%）来计算不同类别的期望人数。

3.根据显著性水平(通常是\(\alpha\) = 0.05) 和自由度(组别 -1) 查卡方临界值，当2中计算的卡方值大于卡方临界值时，就可以拒绝H0假设

例1:

例2:

卡方独立性检验 chi-square test of independence

检验两个两个类别之间的变量是否存在关系
比如心理学，物理学，管理学的学生在思考方式上是否存在差异，这里涉及两个变量学科和思考方式，假设他们是相互独立的

步骤

1. 两个假设

原假设（H₀）：两个变量没关系（独立）
“性别和工作类型没关系”，男生选全职 / 兼职的比例，和女生选的比例应该一样。
备择假设（Hₐ）：两个变量有关系（依赖）
比如 “性别和工作类型有关系”，男生更爱选全职

2：同样的，根据观测值和期望值计算卡方值
只是独立性检验中的期望值不是用1000/6得到的，而是用每个单元对应的行之和乘以列之和 / 总样本数

3：同样的，根据自由度和显著性水平在表中查卡方临界值

若卡方值 > 临界值：说明实际数据和 “变量无关” 的预期差距过大，我们有足够证据推翻 “变量无关” 的原假设，认为两个变量存在关联。
若卡方值 ≤ 临界值：说明实际数据和 “变量无关” 的预期差距不大，我们没有足够证据推翻原假设，认为两个变量没有显著关联。

例1:

例2:

The proportion of 2 Independent Population

例题：

P检验

P检验和拒绝域法的对比（课外）

一、逻辑思路

拒绝域法：先预设一个显著性水平 \(\alpha\)（如 \(\alpha=0.05\)），然后基于原假设 \(H_0\) 构造检验统计量的分布，找到 “小概率事件” 的范围（拒绝域）。若检验统计量落在拒绝域内，则拒绝 \(H_0\)
p 值法：不预设 \(\alpha\)，而是直接计算 “在 \(H_0\) 成立时，观测到当前样本（或更极端样本）的概率”（即 p 值）。p 值是能够拒绝 \(H_0\) 的最小显著性水平。

二、决策依据

拒绝域法：比较检验统计量与临界值（由 \(\alpha\) 确定）。若检验统计量落在拒绝域（如 \(|z| > z_{\alpha/2}\)），则拒绝 \(H_0\)
p 值法：比较p 值与预设的 \(\alpha\)。若 \(p \leq \alpha\)，则拒绝 \(H_0\)；若 \(p > \alpha\)，则不拒绝 \(H_0\)

标准分布表

这个表的数值**是标准正态随机变量 Z 落在区间 \((-\infty, z)\) 内的概率**，即直线 \(Z = z\) 左侧的面积

单个正态总体均值的假设检验（双侧，单侧）-1次

单个正态总体均值的假设检验（双侧，单侧）

两个正态总体均值差的假设检验

两个正态总体方差比的检验

双样本比例检验 – 合并比例法

加hat表示对整体的无偏估计值

对两个总体抽样得到比例的无偏估计值，两者的无偏估计的差的分布可以视为正态分布，下面为该正态分布的性质：

由于P1和P2（无hat）我们并不知道，因此用合并比例估计值替代

案例研究：Web 服务器弹性测试

假设在当前基础设施下，只有 25% 的模拟网络攻击使公司的 Web 服务器完全运行（即没有停机时间）。已经提出了一种新的服务器架构，并通过 n=20 次独立的模拟攻击试验进行评估。

我们检验： \(H_{0}: p=0.25\quad \text{vs.}\quad H_{a}: p>0.25\)

设 X 表示服务器保持完全运行的试验次数。在零假设 \(H_{0}\) 下，我们假设： \(X \sim Bin(20, 0.25), \quad \text{with} \quad \mathbb{E}[X]=20 \cdot 0.25=5\)

我们的目标是评估新架构是否比当前基线显著提高了弹性。

显著性水平和拒绝域

假设我们选择显著性水平 α=0.10，我们寻找能够提供反对 \(H_{0}\) 有力证据的 x 值。使用二项分布： \(\mathbb{P}(X \geq 7) \approx 0.214\) \(\mathbb{P}(X \geq 8) \approx 0.102\) \(\mathbb{P}(X \geq 9) \approx 0.041\)

为了确保检验的显著性水平约为 0.10，当 X≥8 时，我们拒绝 \(H_{0}\)。

第一类错误概率

定义 4：第一类错误概率（也称为显著性水平 α）为： \(\alpha=\mathbb{P}\left(\text{拒绝} H_{0} | H_{0} \text{为真}\right)=\mathbb{P}(X \geq 8 | X \sim Bin(20, 0.25)) \approx 0.102\)

备注 8：这意味着在重复抽样中，如果 \(H_{0}\) 为真，我们大约会在 10.2% 的此类实验中错误地拒绝零假设。考虑到我们选择的 α=0.10，这是一个可接受的风险。

第二类错误和功效分析

与第一类错误不同，没有单一的第二类错误概率，因为 \(H_{0}\) 可能以多种方式为假（例如，p=0.3，p=0.5 等）。

设 β(p) 表示当 p 的真实值大于 0.25 时未能拒绝 \(H_{0}\) 的概率。

示例：p=0.30 \(\beta(0.3)=\mathbb{P}(X \leq 7 | X \sim Bin(20, 0.3)) \approx 0.772\) 这意味着当真实成功概率为 0.30 时，有 77.2% 的概率未能检测到改进。

备注 9：真实 p 越接近 0.25，越难检测到差异，尤其是在样本量较小时。随着真实 p 的增加，检验的功效（即 1−β(p)）增加，即 β(p) 减小。

复合零假设和边界错误

假设我们不再希望检验简单的零假设 \(H_{0}: p=0.25\)，而是检验一个更现实的复合假设，例如： \(H_{0}: p \leq 0.25\quad \text{vs.}\quad H_{a}: p>0.25\)

在这种情况下，零假设包含 p 的多个值，而不仅仅是一个点。

对于每个值 \(p_{0} \leq 0.25\)，我们计算相应的第一类错误概率 α(\(p_{0}\))。
最大的第一类错误率发生在边界 p=0.25 处。
因此，如果显著性水平针对边界值进行控制，即 α(0.25)=0.102，那么对于所有 \(p_{0}<0.25\)，α(\(p_{0}\))<0.102。

备注 10：这确保了检验在更广泛的零假设下仍然有效。最坏情况下的第一类错误仍然与简化的点假设一致。

定理 1（显著性水平）：任何检验程序，如果 P 值≤α 时拒绝 \(H_{0}\)，否则不拒绝，其显著性水平为 α： \(\mathbb{P}(\text{第一类错误})=\alpha\)

定理 2（错误权衡）：设抽样程序、样本量 n 和检验统计量固定。那么增加显著性水平 α（即允许更大的拒绝 \(H_{0}\) 的机会）会导致对于任何备择假设 \(p \in H_{a}\)，第二类错误概率 β 减小。

含义：较大的 α 增加了拒绝 \(H_{0}\) 的机会，因此减少了错过真实效应的可能性（β 降低）。

备注 11：这种权衡意味着一个限制：除非增加样本量 n，否则不可能使 α 和 β 都任意小。

单侧、双侧检验的临界比例阈值

假设我们将显著性水平固定为 α，并检验右尾备择假设 \(H_{a}: p>p_{0}\)。如果样本比例超过阈值，我们拒绝零假设： \(\hat{p}_{\text{crit}}=p_{0}+z_{\alpha} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}\) 这是在零分布下导致在 α 水平上拒绝 \(H_{0}\) 的最小样本比例。

对于双侧备择假设 \(H_{a}: p \neq p_{0}\)，临界区域分布在正态分布的两个尾部。如果样本比例落在区间之外，我们拒绝零假设： \(\hat{p}<p_{0}-z_{\alpha / 2} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}} \quad \text{或} \quad \hat{p}>p_{0}+z_{\alpha / 2} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}\)

等价地，如果检验统计量的绝对值超过临界值，我们拒绝 \(H_{0}\)： \(|z|>z_{\alpha / 2}\) 这使得检验比单侧情况更保守，需要更强的证据来拒绝 \(H_{0}\)。

检验的功效（大样本近似）

为了评估检验检测真实备择假设 \(p=p_{1}\) 的能力，我们计算功效 1−β，它表示当备择假设为真时正确拒绝零假设的概率。

右尾检验：\(H_{0}: p=p_{0}\) vs. \(H_{a}: p>p_{0}\) 如果 \(\hat{p}>\hat{p}_{\text{crit}}\)，则拒绝 \(H_{0}\)，其中 \(\hat{p}_{\text{crit}}=p_{0}+z_{\alpha} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}\)

则功效为： \(1-\beta=\mathbb{P}\left(Z>\frac{\hat{p}_{\text{crit}}-p_{1}}{\sqrt{p_{1}\left(1-p_{1}\right) / n}}\right)\)

左尾检验：\(H_{0}: p=p_{0}\) vs. \(H_{a}: p<p_{0}\) 如果 \(\hat{p}<\hat{p}_{\text{crit}}\)，则拒绝 \(H_{0}\)，其中 \(\hat{p}_{\text{crit}}=p_{0}-z_{\alpha} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}\)

则功效为： \(1-\beta=\mathbb{P}\left(Z<\frac{\hat{p}_{\text{crit}}-p_{1}}{\sqrt{p_{1}\left(1-p_{1}\right) / n}}\right)\)

备注 12：该公式表明，功效随着以下因素的增加而增加：

更大的样本量 n
更大的效应量 \(|p_{1}-p_{0}|\)
更宽松的显著性水平 α

在研究设计中，通常目标是功效≥0.80。

双侧备择假设的检验功效

对于双侧假设 \(H_{0}: p=p_{0}\) vs. \(H_{a}: p \neq p_{0}\)，功效计算必须考虑分布的两个尾部。如果检验统计量落在临界值 ±\(z_{\alpha/2}\) 之外，我们拒绝零假设。

在备择假设 \(p=p_{1}\) 下，近似功效为： \(1-\beta=\mathbb{P}\left(Z<-z_{\alpha / 2} | p=p_{1}\right)+\mathbb{P}\left(Z>z_{\alpha / 2} | p=p_{1}\right)\)

即： \(1-\beta=\mathbb{P}\left(Z<\frac{p_{0}-z_{\alpha / 2} \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}-p_{1}}{\sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n}}}\right)+\mathbb{P}\left(Z>\frac{p_{0}+z_{\alpha / 2} \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}-p_{1}}{\sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n}}}\right)\)

这评估了在备择假设 \(p_{1}\) 下，样本比例导致 \(\hat{p}\) 值落在 \(p_{0}\) 下定义的双尾拒绝区域之外的可能性。

备注 13：对于检测特定方向的变化，双侧检验的功效通常低于单侧检验，因为显著性水平 α 分布在两个尾部。在收集数据之前，始终根据科学背景选择检验方向。

例1：

一家微电子制造商历史上报告其一条微芯片生产线的缺陷率为 7%。最近，由于供应链中断和人员短缺，有人担心缺陷率可能已经上升。

为了评估当前缺陷率是否超过历史基准，质量控制分析师随机选择了 n=500 个上周生产的微芯片样本，发现其中 x=50 个有缺陷。

步骤 1：定义假设 我们将总体比例 p 定义为微芯片有缺陷的真实概率。假设为： \(H_{0}: p=0.07\quad \text{（历史缺陷率）}\) \(H_{a}: p>0.07\quad \text{（怀疑缺陷率增加）}\) 这是一个右尾检验，因为我们正在检验缺陷率是否增加。

步骤 2：检查正态近似条件 我们验证使用比例的大样本 z 检验的假设： \(n p_{0}=500 \cdot 0.07=35>5, \quad n\left(1-p_{0}\right)=500 \cdot 0.93=465>5\) 两个条件都满足，因此 \(\hat{p}\) 的抽样分布近似正态。

步骤 3：计算检验统计量

你有一个大样本（n = 500），观察到有 50 个“成功”事件（例如：50 个产品是坏的，或 50 人购买了商品等）。现在你想要检验观察到的比例（10%）是否显著大于历史比例（7%）。

步骤 4：计算 P 值 使用标准正态分布表或软件： \(P \text{-value} =\mathbb{P}(Z>2.31) \approx 0.0104\)

步骤 5：做出决策 将 P 值与显著性水平 α=0.05 进行比较：

由于 0.0104 < 0.05，我们拒绝零假设 \(H_{0}\)。

背景结论：在 5% 的水平上有统计显著的证据表明当前缺陷率超过了 7% 的历史水平。这表明制造过程可能正在经历质量下降，应调查纠正措施。

备注 14：尽管缺陷率从 7% 增加到 10% 可能看起来适中，但在高产量生产中可能具有重大的运营影响。例如，在一百万片微芯片的批次中，这种变化对应于额外的 30,000 个缺陷单元。这种变化可能需要立即调查过程质量、供应商绩效或机器校准

例2：

一位数字营销分析师正在评估新设计的电子商务登录页面的有效性。从历史上看，网站访问者的购买转化率约为 5%。推出重新设计后，分析师收集了 n=400 次网站访问的简单随机样本，观察到 x=30 位访问者完成了购买。

步骤 1：定义假设 设 p 为所有访问者中进行购买的真实比例。假设为： \(H_{0}: p=0.05\quad \text{（基线转化率）}\) \(H_{a}: p>0.05\quad \text{（由于新设计而增加）}\) 这是一个右尾检验，反映了检测改进的目标。

步骤 2：检查正态近似条件 我们验证应用 z 检验的大样本条件： \(n p_{0}=400 \cdot 0.05=20>5, \quad n\left(1-p_{0}\right)=400 \cdot 0.95=380>5\) 两个标准都满足，\(\hat{p}\) 的抽样分布可以用正态分布近似。

步骤 3：计算检验统计量 观察到的样本比例为： \(\hat{p}=\frac{30}{400}=0.075\)

检验统计量为： \(z=\frac{\hat{p}-p_{0}}{\sqrt{p_{0}\left(1-p_{0}\right) / n}}=\frac{0.075-0.05}{\sqrt{0.05 \cdot 0.95 / 400}} \approx \frac{0.025}{0.00883} \approx 2.83\)

步骤 4：计算 P 值 使用标准正态分布： \(P \text{-value} =\mathbb{P}(Z>2.83) \approx 0.0023\)

步骤 5：做出决策 在显著性水平 α=0.05 时：

由于 P 值 = 0.0023 < 0.05，我们拒绝零假设 \(H_{0}\)。

例3：

一家环境机构正在跟踪可持续消费者行为的变化，特别是可重复使用购物袋的使用情况。在之前的全国调查中，发现约 55% 的购物者在购物时定期携带可重复使用的袋子。在一个小型城市地区发起了一项新的外展活动，该机构希望评估这项工作是否导致了增长。在该地区随机调查了 n=80 名购物者，其中 x=50 人报告定期使用可重复使用的袋子。我们检验该比例是否超过了全国基准。

步骤 1：定义假设 设 p 表示该地区购物者中使用可重复使用袋子的真实比例。 \(H_{0}: p=0.55\quad \text{vs.}\quad H_{a}: p>0.55\)

步骤 2：检查 Z 检验条件 \(n p_{0}=80 \cdot 0.55=44>5, \quad n\left(1-p_{0}\right)=36>5\) 正态近似是合理的。

步骤 3：检验统计量和 P 值 \(\hat{p}=\frac{50}{80}=0.625, \quad z=\frac{0.625-0.55}{\sqrt{0.55(1-0.55) / 80}} \approx \frac{0.075}{0.0556} \approx 1.35\) \(P \text{-value} =\mathbb{P}(Z>1.35) \approx 0.0885\)

步骤 4：结论 由于 P 值 > 0.05，我们不拒绝 \(H_{0}\)。在 5% 的水平上，观察到的可重复使用袋子使用量的增加在统计上不显著。

假设结构

我们检验：

备择假设 \(H_{a}\) 的三种常见形式：

单侧上尾：\(H_{a}: \mu>\mu_{0}\)
单侧下尾：\(H_{a}: \mu<\mu_{0}\)
双侧：\(H_{a}: \mu \neq \mu_{0}\)

单侧检验的临界均值阈值

假设我们正在进行具有已知或估计标准误差和显著性水平 α 的单侧假设检验。

对于右尾检验 \(H_{a}: \mu>\mu_{0}\)，当以下情况时拒绝零假设： \(\overline{x}>\mu_{0}+z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}\quad \text{（Z检验）}\) \(\overline{x}>\mu_{0}+t_{\alpha, n-1} \cdot \frac{s}{\sqrt{n}}\quad \text{（t检验）}\)

同样，对于左尾检验 \(H_{a}: \mu<\mu_{0}\)，如果以下情况，我们拒绝 \(H_{0}\)： \(\overline{x}<\mu_{0}-z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}\quad \text{（Z检验）}\) \(\overline{x}<\mu_{0}-t_{\alpha, n-1} \cdot \frac{s}{\sqrt{n}}\quad \text{（t检验）}\)

双侧检验阈值

对于双尾检验 \(H_{a}: \mu \neq \mu_{0}\)，如果检验统计量落在中心 1−α 区域之外，我们拒绝零假设。这对应于： \(\left|\overline{x}-\mu_{0}\right|>z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}\quad \text{（Z检验）}\) \(\left|\overline{x}-\mu_{0}\right|>t_{\alpha / 2, n-1} \cdot \frac{s}{\sqrt{n}}\quad \text{（t检验）}\)

这也可以写成： \(\overline{x}<\mu_{0}-z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}} \quad \text{或} \quad \overline{x}>\mu_{0}+z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}\quad \text{（Z检验）}\) \(\overline{x}<\mu_{0}-t_{\alpha / 2, n-1} \cdot \frac{s}{\sqrt{n}} \quad \text{或} \quad \overline{x}>\mu_{0}+t_{\alpha / 2, n-1} \cdot \frac{s}{\sqrt{n}}\quad \text{（t检验）}\)

检验的功效（单侧备择假设）

为了评估检测真实均值 \(\mu=\mu_{1} \neq \mu_{0}\) 的功效，我们计算：

右尾（Z 检验）： \(1-\beta=\mathbb{P}\left(Z>\frac{\mu_{0}+z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}-\mu_{1}}{\sigma / \sqrt{n}}\right)=\mathbb{P}\left(Z>\frac{\mu_{0}-\mu_{1}+z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}}{\sigma / \sqrt{n}}\right)\)

右尾（t 检验）： \(1-\beta=\mathbb{P}\left(T_{n-1, \delta}>t_{\alpha, n-1}\right), \quad \delta=\frac{\mu_{1}-\mu_{0}}{s / \sqrt{n}}\)

这里，\(T_{n-1, \delta}\) 表示服从自由度为 n−1 且非中心参数为 δ 的非中心 t 分布的随机变量。与标准 t 分布（对称且以 0 为中心）不同，非中心 t 分布是不对称的，并根据 δ 的大小和方向移动。它用于在备择假设 \(\mu=\mu_{1}\) 下对检验统计量的抽样分布进行建模，从而在 σ 未知且使用 s 时实现精确的功效计算。

左尾（Z 检验）： \(1-\beta=\mathbb{P}\left(Z<\frac{\mu_{0}-z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}-\mu_{1}}{\sigma / \sqrt{n}}\right)=\mathbb{P}\left(Z<\frac{\mu_{0}-\mu_{1}-z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}}{\sigma / \sqrt{n}}\right)\)

左尾（t 检验）： \(1-\beta=\mathbb{P}\left(T_{n-1, \delta}<-t_{\alpha, n-1}\right)\)

双侧备择假设的检验功效

对于双侧情况 \(H_{a}: \mu \neq \mu_{0}\)， \(1-\beta=\mathbb{P}\left(T_{n-1, \delta}<-t_{\alpha / 2, n-1}\right)+\mathbb{P}\left(T_{n-1, \delta}>t_{\alpha / 2, n-1}\right), \quad \delta=\frac{\mu_{1}-\mu_{0}}{s / \sqrt{n}}\)

t 检验： \(1-\beta \approx \mathbb{P}\left(Z<\frac{\mu_{0}-z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}-\mu_{1}}{\sigma / \sqrt{n}}\right)+\mathbb{P}\left(Z>\frac{\mu_{0}+z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}-\mu_{1}}{\sigma / \sqrt{n}}\right)\)

Z 检验：

备注 18：对于小样本，使用自由度为 n−1 且非中心参数为 \(\delta=\frac{\mu_{1}-\mu_{0}}{s / \sqrt{n}}\) 的非中心 t 分布。对于大 n，基于正态近似的功效计算变得越来越准确。

例4：

城市发展当局担心日益严重的交通拥堵增加了居民的通勤时间。从历史上看，该市的平均通勤时间为 30 分钟。一位城市规划师希望确定这个平均值是否增加了。

为了调查，随机选择了 n=16 名居民的样本。该样本产生的平均通勤时间为 \(\bar{x}=32.4\) 分钟，样本标准差为 s=3.8 分钟。

步骤 1：定义假设 设 μ 表示所有城市居民的真实平均通勤时间。 \(H_{0}: \mu=30\quad \text{vs.}\quad H_{a}: \mu>30\) 这是一个右尾检验，适合检测平均通勤时间的增加。

步骤 2：假设

样本是从城市通勤者总体中随机抽取的。
样本量小（n=16），因此只有当通勤时间的分布近似正态时，t 检验才合适。
数据中没有报告重大异常值或强偏度。

步骤 3：检验统计量 我们使用单样本 t 检验公式： \(t=\frac{\overline{x}-\mu_{0}}{s / \sqrt{n}}=\frac{32.4-30}{3.8 / \sqrt{16}}=\frac{2.4}{0.95} \approx 2.526\)

自由度： \(d f=n-1=15\)

步骤 4：P 值方法 使用自由度为 15 的 t 分布： \(P \text{-value} =\mathbb{P}\left(T_{15}>2.526\right) \approx 0.012\)

决策：由于 P 值 = 0.012 < α=0.05，我们拒绝 \(H_{0}\)。

步骤 5：经典（临界值）方法 在 5% 显著性水平下，自由度为 15 的右尾 t 检验的临界值为： \(t_{0.05,15} \approx 1.753\) 由于 t=2.526 > 1.753，检验统计量落在拒绝域中。

结论：P 值和临界值方法都导致拒绝零假设。样本提供了统计显著的证据，表明平均通勤时间已超过 30 分钟的历史平均水平。

例5：

一家电信公司宣传客户通常等待不超过 10 分钟即可与代表通话。然而，最近的投诉引发了人们对平均等待时间可能与该标准不同的担忧。为了调查，一位主管选择了 n=25 个客户服务电话的简单随机样本。该样本产生的平均等待时间为 \(\bar{x}=9.4\) 分钟，样本标准差为 s=1.5 分钟。

我们旨在使用 α=0.05 显著性水平的双侧 t 检验，检验真实平均等待时间是否与广告中的 10 分钟不同。

假设： \(H_{0}: \mu=10\quad \text{vs.}\quad H_{a}: \mu \neq 10\)

检验统计量：由于总体标准差 σ 未知且样本量小（n<30），合适的检验是单样本 t 检验： \(t=\frac{\overline{x}-\mu_{0}}{s / \sqrt{n}}=\frac{9.4-10}{1.5 / \sqrt{25}}=\frac{-0.6}{0.3}=-2.0\)

自由度：\(d f=n-1=24\)

P 值方法：使用自由度为 24 的 t 分布： \(P \text{-value} =2 \cdot \mathbb{P}\left(T_{24}<-2.0\right) \approx 2 \cdot 0.029=0.058\)

结论：由于 P 值超过显著性水平（0.058 > 0.05），我们未能拒绝零假设。数据没有提供足够的统计证据来得出真实平均等待时间与 10 分钟不同的结论。

例6:

这步样本均值与原假设之间的差距大小，用标准差来衡量。z 值 = 3.5 表示：样本平均值比原假设的平均值大了 3.5 个标准差之多。

也就是说如果你画一条正态分布曲线：把右边最极端的 1% 留出来（也就是 0.01 的部分）那么这条边界线所在的 z 值就是 2.33，果你观察到的 z 值 超过了 2.33，那么就处于 非常罕见的右尾区域（只有 1% 的概率会落在那里）。如果你的 z 值大于 2.33，就说明你的观察结果太极端了，不太可能是巧合所以我们就会拒绝原假设

原假设，备选假设，两类错误

决策过程与逻辑

significance level 显著性水平 Confidence Interval 置信区间(CI)

区间估计

置信水平(度)confidence level ，显著性水平significance level

置信区间 confidence intervals（需要例题）

P值

假设检验的步骤

卡方检验

The Chi-Square Distribution 卡方分布

卡方拟合优度检验 chi-square goodness of fit test

卡方独立性检验 chi-square test of independence

The proportion of 2 Independent Population

P检验

P检验和拒绝域法的对比（课外）

一、逻辑思路

二、决策依据

标准分布表

单个正态总体均值的假设检验（双侧，单侧）-1次

单个正态总体均值的假设检验（双侧，单侧）

两个正态总体均值差的假设检验

两个正态总体方差比的检验

双样本比例检验 – 合并比例法

案例研究：Web 服务器弹性测试

显著性水平和拒绝域

第一类错误概率

第二类错误和功效分析

复合零假设和边界错误

单侧、双侧检验的临界比例阈值

检验的功效（大样本近似）

双侧备择假设的检验功效

例1：

例2：

例3：

假设结构

单侧检验的临界均值阈值

双侧检验阈值

检验的功效（单侧备择假设）

双侧备择假设的检验功效

例4：

例5：

例6:

发送评论 编辑评论

推荐文章

发送评论编辑评论