统计学的两个基本问题:
- 估计问题:用样本算 “点估计”(如样本均值),再用 “置信区间” 量化估计的可靠性,回答 “总体参数大概在哪,准不准”
- 假设检验问题: 假设检验是检验某个关于总体参数(比如均值、比例等)是否成立的方法。先提出关于总体的 “假设”,再用样本证据判断 “是否有足够理由推翻原假设”,回答 “决策是否合理”
要采购 10000 个灯泡,老板要求这批灯泡的平均寿命必须大于 4000h。我们无法直接得知这 10000 个灯泡的真实平均寿命(即总体寿命)—— 若要获取准确的总体寿命,需要将这 10000 个灯泡全部点亮至熄灭,逐个测试寿命后计算平均值。但灯泡寿命测试是典型的破坏性试验,测试后的灯泡会完全报废,既不现实也会产生极高成本,因此我们需要通过抽样的方式来估计总体寿命
估计问题(点估计,区间估计)
我们从 10000 个灯泡中随机抽取 100 个作为样本,测试并计算出这 100 个灯泡的平均寿命,这个数值被称为样本均值,最终得到样本均值\(\bar{X}=4001\ \text{h}\)。
如果采用点估计的方法,直接用 4001h 这个样本均值来代表 10000 个灯泡的总体寿命,老板大概率会产生顾虑:“这 100 个灯泡的情况,真的能代表剩下 9900 个灯泡吗?这个估计值的误差到底有多大?
这时候就需要用到区间估计的方法,核心工具就是置信区间。它不再给出一个单一的估计数值,而是能明确告诉我们:“在一定的置信水平下,这批灯泡的总体均值大概率会落在某个范围之内”。
置信区间的理论依据是样本均值的抽样分布:如果我们从这 10000 个灯泡中,反复抽取多组容量为 100 的样本,每组都计算出一个样本均值,然后以样本均值为横坐标、以对应均值出现的频次为纵坐标绘制图形,会得到一个样本均值的分布折线图。当样本量足够大时,这个分布会趋近于正态分布,这也是我们计算置信区间的关键前提。

即95% 的置信区间是 (3961.32, 4040.68) 小时。
它的含义是:“我们有 95% 的把握,这批 10000 个灯泡的真实平均寿命在 3961.32 到 4040.68 小时之间。” 这就把 “估计的不确定性” 量化了
假设检验问题:
老板要求 “平均寿命必须大于 4000h”,我们可以把它转化为假设检验:
- 原假设\(H_0\):总体平均寿命\(\mu \leq 4000\)(这批货不达标,该拒绝)
- 备择假设\(H_1\):总体平均寿命\(\mu > 4000\)(这批货达标,该接受)
接下来需要判断:样本均值\(\bar{X}=4001\)是 “偶然出现”,还是 “足以证明总体确实 > 4000”
QA:回归检验也要求H1和H0互补吧,可是有的题目并没有互斥互补只是互斥关系

步骤 1:计算检验统计量
这步的作用是便于找到拒绝域的具体范围,可以发现我们需要计算究竟横坐标具体为多少时,最左侧/最右侧到该点的频率和为5%,为了方便计算,我们将其转化为已知分布,这样很容易就能找到5%所对应的横坐标
用 t 统计量(因为总体标准差未知,用样本标准差代替):
\(t = \frac{\bar{X} – \mu_0}{s/\sqrt{n}} = \frac{4001 – 4000}{200/\sqrt{100}} = \frac{1}{20} = 0.05\)
步骤 2:确定 “拒绝域”
我们设定显著性水平\(\alpha=0.05\)(即允许第一类错误的概率为 5%)。对于单侧检验(因为只要\(\mu>4000\)就达标),查 t 分布表(自由度 99),得临界值\(t_{0.05}(99) \approx 1.66\)。
如果计算的\(t > 1.66\),就拒绝\(H_0\)(认为达标);否则不拒绝\(H_0\)(认为不达标)。
这里我们的\(t=0.05 < 1.66\),所以不拒绝原假设\(H_0\)—— 也就是说,目前的样本证据不足以证明这批灯泡平均寿命 > 4000h,需要谨慎决策。
原假设,备选假设,两类错误
先对总体分布中某些未知参数作某种假设,然后由所抽取的样本构造合适的统计量,对假设的真伪进行判断,并作出接受或拒绝决定的问题,称为假设检验。提出的假设称为原假设,记作\(H_0\),与原假设对立的假设称为备择假设,记作\(H_1\)
- H₀(原假设 Null): 默认成立的假设。
- Hₐ(备择假设 Alternative): 希望提供证据支持的假设(备择假设取决于当我们想要哪一个方向的结论)
两类错误:
- 第一类错误(弃真错误):\(H_0\)实际正确,拒绝\(H_0\);
- 第二类错误(存伪错误):\(H_0\)实际错误,接受\(H_0\)。

α 和 β 此消彼长:如果我们把 α 设得很小(比如 0.01),减少 “错买次品” 的概率,但会增加 “错拒好货” 的β;反之如果 α 设得大(比如 0.1),减少 β,但增加α

- 两类错误不会同时发生。
第一类错误仅在原假设为真时发生,第二类错误仅在原假设为假时发生。 - 第一类错误概率(\(\alpha\))增大时,第二类错误概率(\(\beta\))会减小,反之亦然。
- 两类错误相互排斥:误拒原假设仅会导致第一类错误,误判不拒绝原假设仅会导致第二类错误。
- 原则上,完全消除这两种错误的唯一方法是观察整个总体。实际上,这是不可行的,我们必须使用样本并管理这些风险。
决策过程与逻辑
假设检验是一种使用样本数据来决定是否拒绝 \(H_{0}\) 的程序,其逻辑如下:
- 假设 \(H_{0}\) 为真。
- 确定观察到与实际所见一样极端(或更极端)的数据的可能性有多大。
- 如果这个概率很小,我们就拒绝 \(H_{0}\) 而支持 \(H_{a}\)。
假设检验的基本思想(“女士品茶”):“小概率事件原理”,即小概率事件在一次试验中几乎不可能发生,如果发生,则有理由认为假设不成立,从而拒绝假设。
女士品茶大致的思路是H0:女士没有那个能力,H1:女士有那个能力,这个顺序不能反,因为如果假设女士有这个能力那6次他的正确率是100%,这不合理,现在她有50%的概率蒙对。
在H0的前提下,实验结果说明他只有1/2 ^6的概率能连续正确,小概率事件发生了,说明H0是错误的

significance level 显著性水平 Confidence Interval 置信区间(CI)
区间估计
在应用统计中,点估计(如 \(\hat{\mu} = \bar{X}\))为未知总体参数提供单个最佳猜测,但任何基于有限样本的估计都存在不确定性。仅有点估计无法说明该猜测的精确程度。
为此,我们引入置信区间概念:用样本数据,去估计总体参数(比如总体均值 μ)可能落在某个范围内,而不再是某个点,这种估计方法称为区间估计

“我不确定总体参数到底是多少,但我可以说:我有 x% 的把握,它就在这个区间里。”
例如:你抽取了一个样本,计算出平均身高是 170 cm,你希望估计整个学校男生的平均身高(μ)
“我不能确定 μ 是多少,但我有 95% 的信心,它落在 168 cm 到 172 cm 之间。”
这个 168,172 就是一个 95%置信区间。犯错率是5%

置信水平(度)confidence level ,显著性水平significance level
真实数据落在区间的正确率就是置信水平,犯错率即不落在区间的正确率就是显著性水平
- 置信度1−α:指在重复抽样条件下,由样本构造的置信区间能够包含总体真实参数的概率
- 显著性水平α:指在假设检验中,当原假设 H₀ 为真时,错误拒绝 H₀ 的最大允许概率(即第一类错误概率)。

注:假设检验只通过一组样本值进行,在数学上并不能证明一个命题一定成立,但可以作为反例推翻一个命题。当检验统计量 T 落入拒绝域而拒绝原假设 H0 时,我们把握是比较大的。而当检验统计量 T 未落入拒绝域,严格意义上称为 “没有充分理由拒绝”,所以认为 H0 成立。
置信区间 confidence intervals(需要例题)
在一定置信水平下(比如 95%),用来估计总体参数真实值的一个区间范围
参数θ的100(1−α)%置信区间公式:

证明过程

我们的确无法写出目标式子即u的范围,但是我们知道其Z分布的范围,只要将其不等式中间的Z换回u就可以得到u的范围了
不管什么未知,目标是一致的,就是写出下面这个式子




P值
定义:检验的 P 值是指,在原假设H0成立的条件下,检验统计量取到与观测值相等或更极端值的概率。

P 值为检验统计量概率密度函数曲线下,观测值及更极端值对应的面积。


假如我把\(\alpha\) 取得很大、很小、再很小一点……
到底从哪个临界点开始,我会拒绝 H_0?

假设检验的步骤
- 提出原假设\(H_0\)和备择假设\(H_1\);
- 选取适当的检验统计量T,在\(H_0\)成立的条件下求出其分布;
- 根据给出的显著性水平\(\alpha\)求出拒绝域;
- 用样本观测值计算T的统计值,若落在拒绝域内,则拒绝原假设\(H_0\),否则接受原假设\(H_0\)。

使用 t 检验的情况:
- 总体近似正态,或
- 样本量足够大(n≥30),以便中心极限定理适用


关于用F分布进行两个总体的方差检验的补充:

计算时将两个样本方差 \(s_1^2\) 和 \(s_2^2\) 中较大的那个作为分子,较小的作为分母,公式为:


卡方检验
The Chi-Square Distribution 卡方分布

- 卡方(χ2)分布的形态取决于自由度的大小
- 卡方分布是一个分布族(包含多种不同自由度的卡方分布)
- 卡方分布呈右偏态
- 卡方分布的取值非负
用于检测观察到的类别变量的分布是否与期望的不同
卡方检验适合的数据类型
要学卡方检验,得先知道它针对的是什么数据 —— 这类数据来自 “多项分布实验”,简单说就是满足 3 个条件的重复事件:
- 重复做 n 次相同的事(比如掷 100 次骰子、统计 1 年 4 个季度的客服电话);
- 每次事件有 k 种可能结果(掷骰子有 6 种结果、季度有 4 种结果),且每种结果的概率固定(比如正常骰子每个面概率都是 1/6),所有概率加起来等于 1;
- 每次结果互不影响(这次掷骰子的结果不影响下次)
举个最直观的例子:掷骰子
- 做 100 次(n=100),每次有 6 种结果(k=6),每种结果概率 1/6,且每次独立 —— 这就是典型的多项分布实验。
- 还有个特殊情况:如果 k=2(比如抛硬币,只有 “正面”“反面” 2 种结果),那就是我们更熟悉的 “二项分布实验”(比如抛 10 次硬币,统计正面出现次数)

卡方检验的拒绝域永远是在单侧且在右尾,如果我们与Z检验(正态分布)对比的话,同时还有与Z检验很相近的t检验:

卡方拟合优度检验 chi-square goodness of fit test
判断观测到的样本数据分布,是否与我们预期的理论分布一致
比如抛 100 次硬币,预期正面、反面各出现 50 次(理论分布是均匀分布),但实际只出现了 40 次正面、60 次反面。卡方拟合优度检验就会计算 “实际次数与预期次数的差异”,判断这个差异是不是大到足以说明 “硬币不均匀”流程:
- 零假设:我们先假设 “实际和预期一致”(比如骰子均匀、电话季度均匀)
- 根据观测值和期望值计算卡方值
把每种结果的 “实际与预期的差距平方后,除以预期值”,再把所有结果的这个值加起来
\[\chi^{2} = \sum_{i=1}^{k} \frac{(f_{i} – E_{i})^{2}}{E_{i}}\]
- fi:实际观察到的次数(频数)
比如掷 100 次骰子,“1 点” 实际出现 15 次- Ei:理论预期的次数
比如均匀骰子掷 100 次,每个点预期出现 100×1/6≈16.67 次可能会遇到期望不均分的情况,此时的做法:
- 期望均等:比如假设 “四类运动频率的人数应该一样多”,100 人就会期望每类 25 人;
- 期望不均分(图里的情况):不是平均分配,而是按照给定的比例(50%/30%/10%/10%)来计算不同类别的期望人数。
3.根据显著性水平(通常是\(\alpha\) = 0.05) 和自由度(组别 -1) 查卡方临界值,当2中计算的卡方值大于卡方临界值时,就可以拒绝H0假设
例1:

例2:

卡方独立性检验 chi-square test of independence
检验两个两个类别之间的变量是否存在关系
比如心理学,物理学,管理学的学生在思考方式上是否存在差异,这里涉及两个变量学科和思考方式,假设他们是相互独立的
步骤

1. 两个假设
- 原假设(H₀):两个变量没关系(独立)
“性别和工作类型没关系”,男生选全职 / 兼职的比例,和女生选的比例应该一样。 - 备择假设(Hₐ):两个变量有关系(依赖)
比如 “性别和工作类型有关系”,男生更爱选全职
2:同样的,根据观测值和期望值计算卡方值
只是独立性检验中的期望值不是用1000/6得到的,而是用每个单元对应的行之和乘以列之和 / 总样本数

3:同样的,根据自由度和显著性水平在表中查卡方临界值
- 若卡方值 > 临界值:说明实际数据和 “变量无关” 的预期差距过大,我们有足够证据推翻 “变量无关” 的原假设,认为两个变量存在关联。
- 若卡方值 ≤ 临界值:说明实际数据和 “变量无关” 的预期差距不大,我们没有足够证据推翻原假设,认为两个变量没有显著关联。
例1:

例2:

The proportion of 2 Independent Population




例题:

P检验

P检验和拒绝域法的对比(课外)
一、逻辑思路
- 拒绝域法:先预设一个显著性水平 \(\alpha\)(如 \(\alpha=0.05\)),然后基于原假设 \(H_0\) 构造检验统计量的分布,找到 “小概率事件” 的范围(拒绝域)。若检验统计量落在拒绝域内,则拒绝 \(H_0\)
- p 值法:不预设 \(\alpha\),而是直接计算 “在 \(H_0\) 成立时,观测到当前样本(或更极端样本)的概率”(即 p 值)。p 值是能够拒绝 \(H_0\) 的最小显著性水平。
二、决策依据
- 拒绝域法:比较检验统计量与临界值(由 \(\alpha\) 确定)。若检验统计量落在拒绝域(如 \(|z| > z_{\alpha/2}\)),则拒绝 \(H_0\)
- p 值法:比较p 值与预设的 \(\alpha\)。若 \(p \leq \alpha\),则拒绝 \(H_0\);若 \(p > \alpha\),则不拒绝 \(H_0\)
标准分布表


单个正态总体均值的假设检验(双侧,单侧)-1次

单个正态总体均值的假设检验(双侧,单侧)

两个正态总体均值差的假设检验

两个正态总体方差比的检验

双样本比例检验 – 合并比例法

加hat表示对整体的无偏估计值
对两个总体抽样得到比例的无偏估计值,两者的无偏估计的差的分布可以视为正态分布,下面为该正态分布的性质:
由于P1和P2(无hat)我们并不知道,因此用合并比例估计值替代





案例研究:Web 服务器弹性测试
假设在当前基础设施下,只有 25% 的模拟网络攻击使公司的 Web 服务器完全运行(即没有停机时间)。已经提出了一种新的服务器架构,并通过 n=20 次独立的模拟攻击试验进行评估。
我们检验: \(H_{0}: p=0.25\quad \text{vs.}\quad H_{a}: p>0.25\)
设 X 表示服务器保持完全运行的试验次数。在零假设 \(H_{0}\) 下,我们假设: \(X \sim Bin(20, 0.25), \quad \text{with} \quad \mathbb{E}[X]=20 \cdot 0.25=5\)
我们的目标是评估新架构是否比当前基线显著提高了弹性。
显著性水平和拒绝域
假设我们选择显著性水平 α=0.10,我们寻找能够提供反对 \(H_{0}\) 有力证据的 x 值。使用二项分布: \(\mathbb{P}(X \geq 7) \approx 0.214\) \(\mathbb{P}(X \geq 8) \approx 0.102\) \(\mathbb{P}(X \geq 9) \approx 0.041\)
为了确保检验的显著性水平约为 0.10,当 X≥8 时,我们拒绝 \(H_{0}\)。
第一类错误概率
定义 4:第一类错误概率(也称为显著性水平 α)为: \(\alpha=\mathbb{P}\left(\text{拒绝} H_{0} | H_{0} \text{为真}\right)=\mathbb{P}(X \geq 8 | X \sim Bin(20, 0.25)) \approx 0.102\)
备注 8:这意味着在重复抽样中,如果 \(H_{0}\) 为真,我们大约会在 10.2% 的此类实验中错误地拒绝零假设。考虑到我们选择的 α=0.10,这是一个可接受的风险。
第二类错误和功效分析
与第一类错误不同,没有单一的第二类错误概率,因为 \(H_{0}\) 可能以多种方式为假(例如,p=0.3,p=0.5 等)。
设 β(p) 表示当 p 的真实值大于 0.25 时未能拒绝 \(H_{0}\) 的概率。
示例:p=0.30 \(\beta(0.3)=\mathbb{P}(X \leq 7 | X \sim Bin(20, 0.3)) \approx 0.772\) 这意味着当真实成功概率为 0.30 时,有 77.2% 的概率未能检测到改进。
备注 9:真实 p 越接近 0.25,越难检测到差异,尤其是在样本量较小时。随着真实 p 的增加,检验的功效(即 1−β(p))增加,即 β(p) 减小。
复合零假设和边界错误
假设我们不再希望检验简单的零假设 \(H_{0}: p=0.25\),而是检验一个更现实的复合假设,例如: \(H_{0}: p \leq 0.25\quad \text{vs.}\quad H_{a}: p>0.25\)
在这种情况下,零假设包含 p 的多个值,而不仅仅是一个点。
- 对于每个值 \(p_{0} \leq 0.25\),我们计算相应的第一类错误概率 α(\(p_{0}\))。
- 最大的第一类错误率发生在边界 p=0.25 处。
- 因此,如果显著性水平针对边界值进行控制,即 α(0.25)=0.102,那么对于所有 \(p_{0}<0.25\),α(\(p_{0}\))<0.102。
备注 10:这确保了检验在更广泛的零假设下仍然有效。最坏情况下的第一类错误仍然与简化的点假设一致。
定理 1(显著性水平):任何检验程序,如果 P 值≤α 时拒绝 \(H_{0}\),否则不拒绝,其显著性水平为 α: \(\mathbb{P}(\text{第一类错误})=\alpha\)
定理 2(错误权衡):设抽样程序、样本量 n 和检验统计量固定。那么增加显著性水平 α(即允许更大的拒绝 \(H_{0}\) 的机会)会导致对于任何备择假设 \(p \in H_{a}\),第二类错误概率 β 减小。
含义:较大的 α 增加了拒绝 \(H_{0}\) 的机会,因此减少了错过真实效应的可能性(β 降低)。
备注 11:这种权衡意味着一个限制:除非增加样本量 n,否则不可能使 α 和 β 都任意小。
单侧、双侧检验的临界比例阈值
假设我们将显著性水平固定为 α,并检验右尾备择假设 \(H_{a}: p>p_{0}\)。如果样本比例超过阈值,我们拒绝零假设: \(\hat{p}_{\text{crit}}=p_{0}+z_{\alpha} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}\) 这是在零分布下导致在 α 水平上拒绝 \(H_{0}\) 的最小样本比例。
对于双侧备择假设 \(H_{a}: p \neq p_{0}\),临界区域分布在正态分布的两个尾部。如果样本比例落在区间之外,我们拒绝零假设: \(\hat{p}<p_{0}-z_{\alpha / 2} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}} \quad \text{或} \quad \hat{p}>p_{0}+z_{\alpha / 2} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}\)
等价地,如果检验统计量的绝对值超过临界值,我们拒绝 \(H_{0}\): \(|z|>z_{\alpha / 2}\) 这使得检验比单侧情况更保守,需要更强的证据来拒绝 \(H_{0}\)。

检验的功效(大样本近似)
为了评估检验检测真实备择假设 \(p=p_{1}\) 的能力,我们计算功效 1−β,它表示当备择假设为真时正确拒绝零假设的概率。
右尾检验:\(H_{0}: p=p_{0}\) vs. \(H_{a}: p>p_{0}\) 如果 \(\hat{p}>\hat{p}_{\text{crit}}\),则拒绝 \(H_{0}\),其中 \(\hat{p}_{\text{crit}}=p_{0}+z_{\alpha} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}\)
则功效为: \(1-\beta=\mathbb{P}\left(Z>\frac{\hat{p}_{\text{crit}}-p_{1}}{\sqrt{p_{1}\left(1-p_{1}\right) / n}}\right)\)
左尾检验:\(H_{0}: p=p_{0}\) vs. \(H_{a}: p<p_{0}\) 如果 \(\hat{p}<\hat{p}_{\text{crit}}\),则拒绝 \(H_{0}\),其中 \(\hat{p}_{\text{crit}}=p_{0}-z_{\alpha} \cdot \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}\)
则功效为: \(1-\beta=\mathbb{P}\left(Z<\frac{\hat{p}_{\text{crit}}-p_{1}}{\sqrt{p_{1}\left(1-p_{1}\right) / n}}\right)\)
备注 12:该公式表明,功效随着以下因素的增加而增加:
- 更大的样本量 n
- 更大的效应量 \(|p_{1}-p_{0}|\)
- 更宽松的显著性水平 α
在研究设计中,通常目标是功效≥0.80。
双侧备择假设的检验功效
对于双侧假设 \(H_{0}: p=p_{0}\) vs. \(H_{a}: p \neq p_{0}\),功效计算必须考虑分布的两个尾部。如果检验统计量落在临界值 ±\(z_{\alpha/2}\) 之外,我们拒绝零假设。
在备择假设 \(p=p_{1}\) 下,近似功效为: \(1-\beta=\mathbb{P}\left(Z<-z_{\alpha / 2} | p=p_{1}\right)+\mathbb{P}\left(Z>z_{\alpha / 2} | p=p_{1}\right)\)
即: \(1-\beta=\mathbb{P}\left(Z<\frac{p_{0}-z_{\alpha / 2} \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}-p_{1}}{\sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n}}}\right)+\mathbb{P}\left(Z>\frac{p_{0}+z_{\alpha / 2} \sqrt{\frac{p_{0}\left(1-p_{0}\right)}{n}}-p_{1}}{\sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n}}}\right)\)
这评估了在备择假设 \(p_{1}\) 下,样本比例导致 \(\hat{p}\) 值落在 \(p_{0}\) 下定义的双尾拒绝区域之外的可能性。
备注 13:对于检测特定方向的变化,双侧检验的功效通常低于单侧检验,因为显著性水平 α 分布在两个尾部。在收集数据之前,始终根据科学背景选择检验方向。
例1:
一家微电子制造商历史上报告其一条微芯片生产线的缺陷率为 7%。最近,由于供应链中断和人员短缺,有人担心缺陷率可能已经上升。
为了评估当前缺陷率是否超过历史基准,质量控制分析师随机选择了 n=500 个上周生产的微芯片样本,发现其中 x=50 个有缺陷。
步骤 1:定义假设 我们将总体比例 p 定义为微芯片有缺陷的真实概率。假设为: \(H_{0}: p=0.07\quad \text{(历史缺陷率)}\) \(H_{a}: p>0.07\quad \text{(怀疑缺陷率增加)}\) 这是一个右尾检验,因为我们正在检验缺陷率是否增加。
步骤 2:检查正态近似条件 我们验证使用比例的大样本 z 检验的假设: \(n p_{0}=500 \cdot 0.07=35>5, \quad n\left(1-p_{0}\right)=500 \cdot 0.93=465>5\) 两个条件都满足,因此 \(\hat{p}\) 的抽样分布近似正态。
步骤 3:计算检验统计量
你有一个大样本(n = 500),观察到有 50 个“成功”事件(例如:50 个产品是坏的,或 50 人购买了商品等)。现在你想要检验观察到的比例(10%)是否显著大于历史比例(7%)。
步骤 4:计算 P 值 使用标准正态分布表或软件: \(P \text{-value} =\mathbb{P}(Z>2.31) \approx 0.0104\)
步骤 5:做出决策 将 P 值与显著性水平 α=0.05 进行比较:
- 由于 0.0104 < 0.05,我们拒绝零假设 \(H_{0}\)。
背景结论:在 5% 的水平上有统计显著的证据表明当前缺陷率超过了 7% 的历史水平。这表明制造过程可能正在经历质量下降,应调查纠正措施。
备注 14:尽管缺陷率从 7% 增加到 10% 可能看起来适中,但在高产量生产中可能具有重大的运营影响。例如,在一百万片微芯片的批次中,这种变化对应于额外的 30,000 个缺陷单元。这种变化可能需要立即调查过程质量、供应商绩效或机器校准
例2:
一位数字营销分析师正在评估新设计的电子商务登录页面的有效性。从历史上看,网站访问者的购买转化率约为 5%。推出重新设计后,分析师收集了 n=400 次网站访问的简单随机样本,观察到 x=30 位访问者完成了购买。
步骤 1:定义假设 设 p 为所有访问者中进行购买的真实比例。假设为: \(H_{0}: p=0.05\quad \text{(基线转化率)}\) \(H_{a}: p>0.05\quad \text{(由于新设计而增加)}\) 这是一个右尾检验,反映了检测改进的目标。
步骤 2:检查正态近似条件 我们验证应用 z 检验的大样本条件: \(n p_{0}=400 \cdot 0.05=20>5, \quad n\left(1-p_{0}\right)=400 \cdot 0.95=380>5\) 两个标准都满足,\(\hat{p}\) 的抽样分布可以用正态分布近似。
步骤 3:计算检验统计量 观察到的样本比例为: \(\hat{p}=\frac{30}{400}=0.075\)
检验统计量为: \(z=\frac{\hat{p}-p_{0}}{\sqrt{p_{0}\left(1-p_{0}\right) / n}}=\frac{0.075-0.05}{\sqrt{0.05 \cdot 0.95 / 400}} \approx \frac{0.025}{0.00883} \approx 2.83\)
步骤 4:计算 P 值 使用标准正态分布: \(P \text{-value} =\mathbb{P}(Z>2.83) \approx 0.0023\)
步骤 5:做出决策 在显著性水平 α=0.05 时:
- 由于 P 值 = 0.0023 < 0.05,我们拒绝零假设 \(H_{0}\)。
例3:
一家环境机构正在跟踪可持续消费者行为的变化,特别是可重复使用购物袋的使用情况。在之前的全国调查中,发现约 55% 的购物者在购物时定期携带可重复使用的袋子。在一个小型城市地区发起了一项新的外展活动,该机构希望评估这项工作是否导致了增长。在该地区随机调查了 n=80 名购物者,其中 x=50 人报告定期使用可重复使用的袋子。我们检验该比例是否超过了全国基准。
步骤 1:定义假设 设 p 表示该地区购物者中使用可重复使用袋子的真实比例。 \(H_{0}: p=0.55\quad \text{vs.}\quad H_{a}: p>0.55\)
步骤 2:检查 Z 检验条件 \(n p_{0}=80 \cdot 0.55=44>5, \quad n\left(1-p_{0}\right)=36>5\) 正态近似是合理的。
步骤 3:检验统计量和 P 值 \(\hat{p}=\frac{50}{80}=0.625, \quad z=\frac{0.625-0.55}{\sqrt{0.55(1-0.55) / 80}} \approx \frac{0.075}{0.0556} \approx 1.35\) \(P \text{-value} =\mathbb{P}(Z>1.35) \approx 0.0885\)
步骤 4:结论 由于 P 值 > 0.05,我们不拒绝 \(H_{0}\)。在 5% 的水平上,观察到的可重复使用袋子使用量的增加在统计上不显著。
假设结构
我们检验:

备择假设 \(H_{a}\) 的三种常见形式:
- 单侧上尾:\(H_{a}: \mu>\mu_{0}\)
- 单侧下尾:\(H_{a}: \mu<\mu_{0}\)
- 双侧:\(H_{a}: \mu \neq \mu_{0}\)
单侧检验的临界均值阈值
假设我们正在进行具有已知或估计标准误差和显著性水平 α 的单侧假设检验。
对于右尾检验 \(H_{a}: \mu>\mu_{0}\),当以下情况时拒绝零假设: \(\overline{x}>\mu_{0}+z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}\quad \text{(Z检验)}\) \(\overline{x}>\mu_{0}+t_{\alpha, n-1} \cdot \frac{s}{\sqrt{n}}\quad \text{(t检验)}\)
同样,对于左尾检验 \(H_{a}: \mu<\mu_{0}\),如果以下情况,我们拒绝 \(H_{0}\): \(\overline{x}<\mu_{0}-z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}\quad \text{(Z检验)}\) \(\overline{x}<\mu_{0}-t_{\alpha, n-1} \cdot \frac{s}{\sqrt{n}}\quad \text{(t检验)}\)
双侧检验阈值
对于双尾检验 \(H_{a}: \mu \neq \mu_{0}\),如果检验统计量落在中心 1−α 区域之外,我们拒绝零假设。这对应于: \(\left|\overline{x}-\mu_{0}\right|>z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}\quad \text{(Z检验)}\) \(\left|\overline{x}-\mu_{0}\right|>t_{\alpha / 2, n-1} \cdot \frac{s}{\sqrt{n}}\quad \text{(t检验)}\)
这也可以写成: \(\overline{x}<\mu_{0}-z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}} \quad \text{或} \quad \overline{x}>\mu_{0}+z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}\quad \text{(Z检验)}\) \(\overline{x}<\mu_{0}-t_{\alpha / 2, n-1} \cdot \frac{s}{\sqrt{n}} \quad \text{或} \quad \overline{x}>\mu_{0}+t_{\alpha / 2, n-1} \cdot \frac{s}{\sqrt{n}}\quad \text{(t检验)}\)
检验的功效(单侧备择假设)
为了评估检测真实均值 \(\mu=\mu_{1} \neq \mu_{0}\) 的功效,我们计算:
右尾(Z 检验): \(1-\beta=\mathbb{P}\left(Z>\frac{\mu_{0}+z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}-\mu_{1}}{\sigma / \sqrt{n}}\right)=\mathbb{P}\left(Z>\frac{\mu_{0}-\mu_{1}+z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}}{\sigma / \sqrt{n}}\right)\)
右尾(t 检验): \(1-\beta=\mathbb{P}\left(T_{n-1, \delta}>t_{\alpha, n-1}\right), \quad \delta=\frac{\mu_{1}-\mu_{0}}{s / \sqrt{n}}\)
这里,\(T_{n-1, \delta}\) 表示服从自由度为 n−1 且非中心参数为 δ 的非中心 t 分布的随机变量。与标准 t 分布(对称且以 0 为中心)不同,非中心 t 分布是不对称的,并根据 δ 的大小和方向移动。它用于在备择假设 \(\mu=\mu_{1}\) 下对检验统计量的抽样分布进行建模,从而在 σ 未知且使用 s 时实现精确的功效计算。
左尾(Z 检验): \(1-\beta=\mathbb{P}\left(Z<\frac{\mu_{0}-z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}-\mu_{1}}{\sigma / \sqrt{n}}\right)=\mathbb{P}\left(Z<\frac{\mu_{0}-\mu_{1}-z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}}{\sigma / \sqrt{n}}\right)\)
左尾(t 检验): \(1-\beta=\mathbb{P}\left(T_{n-1, \delta}<-t_{\alpha, n-1}\right)\)
双侧备择假设的检验功效
对于双侧情况 \(H_{a}: \mu \neq \mu_{0}\), \(1-\beta=\mathbb{P}\left(T_{n-1, \delta}<-t_{\alpha / 2, n-1}\right)+\mathbb{P}\left(T_{n-1, \delta}>t_{\alpha / 2, n-1}\right), \quad \delta=\frac{\mu_{1}-\mu_{0}}{s / \sqrt{n}}\)
t 检验: \(1-\beta \approx \mathbb{P}\left(Z<\frac{\mu_{0}-z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}-\mu_{1}}{\sigma / \sqrt{n}}\right)+\mathbb{P}\left(Z>\frac{\mu_{0}+z_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}-\mu_{1}}{\sigma / \sqrt{n}}\right)\)
Z 检验:
备注 18:对于小样本,使用自由度为 n−1 且非中心参数为 \(\delta=\frac{\mu_{1}-\mu_{0}}{s / \sqrt{n}}\) 的非中心 t 分布。对于大 n,基于正态近似的功效计算变得越来越准确。
例4:
城市发展当局担心日益严重的交通拥堵增加了居民的通勤时间。从历史上看,该市的平均通勤时间为 30 分钟。一位城市规划师希望确定这个平均值是否增加了。
为了调查,随机选择了 n=16 名居民的样本。该样本产生的平均通勤时间为 \(\bar{x}=32.4\) 分钟,样本标准差为 s=3.8 分钟。
步骤 1:定义假设 设 μ 表示所有城市居民的真实平均通勤时间。 \(H_{0}: \mu=30\quad \text{vs.}\quad H_{a}: \mu>30\) 这是一个右尾检验,适合检测平均通勤时间的增加。
步骤 2:假设
- 样本是从城市通勤者总体中随机抽取的。
- 样本量小(n=16),因此只有当通勤时间的分布近似正态时,t 检验才合适。
- 数据中没有报告重大异常值或强偏度。
步骤 3:检验统计量 我们使用单样本 t 检验公式: \(t=\frac{\overline{x}-\mu_{0}}{s / \sqrt{n}}=\frac{32.4-30}{3.8 / \sqrt{16}}=\frac{2.4}{0.95} \approx 2.526\)
自由度: \(d f=n-1=15\)
步骤 4:P 值方法 使用自由度为 15 的 t 分布: \(P \text{-value} =\mathbb{P}\left(T_{15}>2.526\right) \approx 0.012\)
决策:由于 P 值 = 0.012 < α=0.05,我们拒绝 \(H_{0}\)。
步骤 5:经典(临界值)方法 在 5% 显著性水平下,自由度为 15 的右尾 t 检验的临界值为: \(t_{0.05,15} \approx 1.753\) 由于 t=2.526 > 1.753,检验统计量落在拒绝域中。
结论:P 值和临界值方法都导致拒绝零假设。样本提供了统计显著的证据,表明平均通勤时间已超过 30 分钟的历史平均水平。
例5:
一家电信公司宣传客户通常等待不超过 10 分钟即可与代表通话。然而,最近的投诉引发了人们对平均等待时间可能与该标准不同的担忧。为了调查,一位主管选择了 n=25 个客户服务电话的简单随机样本。该样本产生的平均等待时间为 \(\bar{x}=9.4\) 分钟,样本标准差为 s=1.5 分钟。
我们旨在使用 α=0.05 显著性水平的双侧 t 检验,检验真实平均等待时间是否与广告中的 10 分钟不同。
假设: \(H_{0}: \mu=10\quad \text{vs.}\quad H_{a}: \mu \neq 10\)
检验统计量:由于总体标准差 σ 未知且样本量小(n<30),合适的检验是单样本 t 检验: \(t=\frac{\overline{x}-\mu_{0}}{s / \sqrt{n}}=\frac{9.4-10}{1.5 / \sqrt{25}}=\frac{-0.6}{0.3}=-2.0\)
自由度:\(d f=n-1=24\)
P 值方法:使用自由度为 24 的 t 分布: \(P \text{-value} =2 \cdot \mathbb{P}\left(T_{24}<-2.0\right) \approx 2 \cdot 0.029=0.058\)
结论:由于 P 值超过显著性水平(0.058 > 0.05),我们未能拒绝零假设。数据没有提供足够的统计证据来得出真实平均等待时间与 10 分钟不同的结论。
例6:


这步样本均值与原假设之间的差距大小,用标准差来衡量。z 值 = 3.5 表示:样本平均值比原假设的平均值大了 3.5 个标准差之多。

也就是说如果你画一条正态分布曲线:把右边最极端的 1% 留出来(也就是 0.01 的部分)那么这条边界线所在的 z 值就是 2.33,果你观察到的 z 值 超过了 2.33,那么就处于 非常罕见的右尾区域(只有 1% 的概率会落在那里)。如果你的 z 值大于 2.33,就说明你的观察结果太极端了,不太可能是巧合所以我们就会拒绝原假设












