离散变量的概率质量函数PMF和概率累积分布函数CDF
\( X \) 的概率质量函数;这是一个函数 \( f_X: \mathbb{Z} \to [0,1] \),定义为 \( f_X(n) = \mathbb{P}(A_n) = \mathbb{P}(X = n) \),表示随机变量 X 取值小于或等于给定值 x 的概率。累积分布函数为:
\[
F(x) = \sum_{x_i \leq x} f(x_i).
\]对于连续型随机变量 \( X \),其累积分布函数 \( F_X(x) \) 定义为:
\[
F_X(x) = \mathbb{P}(X \leq x) = \int_{-\infty}^{x} f_X(t) \, dt,
\]其中 \( f_X(x) \) 是概率密度函数(PDF)。根据微积分基本定理,对 \( F_X(x) \) 求导即可恢复 PDF:\[
f_X(x) = \frac{d}{dx} F_X(x).
\]对累积分布函数(CDF)求导可以得到概率密度函数(PDF)
需要满足:\[ \sum_{n \in \mathbb{Z}} f_X(n) = \sum_{n \in \mathbb{Z}} \mathbb{P}(X = n) = 1 \]
或 \(\int_{-\infty}^{+\infty} f_X(x)dx = 1\)
为什么不需要乘以自变量:CDF 的目的是计算 X落在某个区间内的概率(如 P(X≤x)。在计算某些期望值或矩时,会用到 x 与概率的乘积
离散型随机变量的一个特征是其对应的分布函数是阶梯函数。
已知离散变量的概率求CDF
已知连续变量CDF求PDF – 对CDF求导
假设X是一个随机变量,其累积分布函数为: \[ F_X(x)= \begin{cases} 0, & x < 1 \\ (x – 1)^5, & 1\leq x\leq 2 \\ 1, & 其他 \end{cases} \] 求X的概率密度函数。 解:首先注意到函数\(F_X\)是连续的,因此该随机变量是连续型随机变量。为了找到X的概率密度函数,我们只需要对\(F_X\)求导,实际上: \[ f_X(x)=\frac{dF_X(x)}{dx}= \begin{cases} 0, & x < 1 \\ 5(x – 1)^4, & 1\leq x\leq 2 \\ 0, & 其他 \end{cases} \]
例1. 某公司为顾客生产了七台大型机器,其中三台不符合顾客的规格要求。质检员随机抽取两台机器进行检查。设离散型随机变量 X表示被检查的机器中符合顾客规格的数量。
已知连续变量PDF求CDF – 求积分
求与具有概率密度函数的连续型随机变量Y相关的累积分布\(F_Y\) \[ f_Y(y)= \begin{cases} 4(y – 2)^3, & 2\leq y\leq 3 \\ 0, & 其他 \end{cases} \] 解:首先注意到\(f_Y\)确实满足命题2的性质,因为对所有y, \(f_Y(y)\geq0\),并且 \[ \int_{-\infty}^{+\infty} f_Y(y)dy = \int_{2}^{3} 4(y – 2)^3dy = [(y – 2)^4]_2^3 = 1 \] 由于 \[ F_Y(y) = \int_{-\infty}^{y} f_Y(t)dt \] 我们考虑三种情况\(y\lt2\)、\(2\leq y\leq3\)和\(y\gt3\),得到: \[ F_Y(y)= \begin{cases} 0, & y\leq2 \\ (y – 2)^4, & 2\leq y\leq3 \\ 1, & 3\leq y \end{cases} \]
求PDF中的参数 – 利用积分等于1
计算区间中PDF值
已知\(f(y)=cy^2\),\(0\leq y\leq5\),其他情况\(f(y)=0\),求使\(f(y)\)成为有效密度函数的\(c\)值。 解:我们必须检查\(f\)是否满足命题2中的条件,即\(f(y)\geq0\)对所有\(y\)成立(这要求\(c\geq0\)),并且\(\int_{-\infty}^{\infty}f(y)dy = 1\)。现在我们计算 \[ \int_{-\infty}^{\infty}f(y)dy=\left[\frac{c}{3}y^3\right]_0^5=\frac{125c}{3} \] 因此我们发现\(c = \frac{3}{125}\)。 例6:在前面的例子中,\(Y\)的\(\mathbb{P}(1\leq Y\leq3)\)和\(\mathbb{P}(1\lt Y\lt3)\)是多少? 解:由于对于任何特定值\(y\),\(\mathbb{P}(Y = y)=0\),所以我们有\(\mathbb{P}(1\leq Y\leq3)=\mathbb{P}(1\lt Y\lt3)\)。现在,我们计算: \[ \mathbb{P}(1\leq Y\leq3)=\frac{3}{125}\left[\frac{y^3}{3}\right]_1^3=\frac{(27 – 1)}{125}=\frac{26}{125} \]
通过变量变换来求一个新随机变量的PDF/PMF
连续变量 PDF:
给定一个随机变量 \( X \) 和它的概率密度函数 \( f_X(x) \),比如它是从 0 到 1 之间均匀分布的。现在你用一个函数 \( Y = g(X) \),比如 \(Y = -\ln(X)\),来 “加工” 这个 X,得到了一个新随机变量 Y。
我们需要找到 \( Y \) 的概率密度函数 \( f_Y(y) \)。对于单调函数的随机变量变换,可以使用以下公式: \[ f_Y(y) = f_X\left(g^{-1}(y)\right) \cdot \left| \frac{d}{dy}g^{-1}(y) \right| \]
概率密度虽然不是概率,但它乘上区间长度就是概率,比如:\(P(a \leq X \leq b) \approx f_X(x) \cdot (b – a)\)
现在如果你做了变量变换 \(Y = g(X)\),那么:
- 原来的区间长度是 dx
- 变换后的区间长度是 dy
为了保持概率不变,我们有:\(f_X(x) \cdot dx = f_Y(y) \cdot dy\)
两边都除以 dy,得到:\(f_Y(y) = f_X(x) \cdot \frac{dx}{dy} = f_X\left(g^{-1}(y)\right) \cdot \left| \frac{d}{dy}g^{-1}(y) \right|\)
导数 \(\frac{dx}{dy}\) 哪里来的?区间缩放比例变化的产物。为什么求逆函数?输入从x变成y
\( f_Y(y) \):是变量 \( Y \) 的密度函数(表示 \( Y \) 取值为 \( y \) 时的密度 ); – \( f_X(x) \):是变量 \( X \) 的密度函数; – 所以整个变换公式里,我们用的是 \( X \) 的密度函数,来间接推导出 \( Y \) 的密度函数
离散变量PMF:
独立性
以上为对之前知识的回顾,现在开始学习新的内容 – 常见的离散随机变量
常见分布
某些类型的随机变量在实践中出现得非常频繁,因此了解相关数值事件的概率非常有用。这种概率的集合称为离散随机变量的概率分布。 许多实验表现出相似的特征,并生成具有相同类型概率分布的随机变量。了解常见的概率分布可以节省大量时间,因为我们不需要反复解决相同的概率问题。在本课程中,我们将学习四种离散分布:伯努利分布、二项分布、泊松分布和几何分布。
Binomial Distribution 伯努利分布(二项分布)
条件:
- 某个事件发生的次数(或者实验次数)有限且固定
- 事件的结果有且只有两种(成功或失败)
- 事件的结果的概率相等。比如每次抛硬币相同面朝上的概率是一样的
公式:假设试验成功的概率为 \( p \),所以失败的概率为 \( 1 – p \),设为 \( q \)。现在进行这个试验,假设这个试验进行了 \( n \) 次,有 \( r \) 次获得了成功。用二项分布的概率质量函数表示为: \[ P(X = r) = C_n^r \ p^r \ q^{n-r} \]
计算 r次成功的概率,必须同时考虑 n−r 次失败的概率,因为试验的所有结果都需要被考虑。乘以组合数因为成功和失败的顺序可以不同。例如,在 n=3次试验中,恰好 k=2次成功可能是失败、成功、成功;成功、成功、失败;成功、失败、成功
符号 X∼B(n,p)表示随机变量 X服从参数为 n 和 p 的二项分布。n表示试验的次数。p表示每次试验成功的概率
E[X]=np,Var(X)=np(1−p)
例:沿着某条赛道行驶的山地自行车骑手爆胎的概率为 0.05。求在 17 名骑手中:
这是一个二项分布问题,题目告诉我们:
- 爆胎概率 \(p = 0.05\)
- 骑手人数 \(n = 17\)
- 设 \(X \sim B(n = 17, p = 0.05)\):表示爆胎的人数。
(a) 恰好有一人爆胎
(b) 最多三人爆胎
P(X=0)+P(X=1)+P(X=2)+P(X=3)\[
\mathbb{P}(X \leq 3) \approx 0.4181 + 0.3741 + 0.1575 + 0.0415 \approx 0.9912
\]
(c) 两人或更多人爆胎
需要计算 P(X≥2),即 1−P(X<2)=1−P(X=0)−P(X=1)\[
\mathbb{P}(X \geq 2) = 1 – 0.4181 – 0.3741 \approx 0.2078
\]
解. 设 X为爆胎的骑手数量,则 X∼B(17,0.05),表示试验次数17次,每次爆胎的概率为0.05
\[
\mathbb{P}(X = 0) = C(17, 0) \cdot (0.05)^0 \cdot (0.95)^{17} = 1 \cdot 1 \cdot (0.95)^{17} \approx 0.4181
\]\[
\mathbb{P}(X=1) = C(17,1) \cdot (0.05)^1 \cdot (0.95)^{16}
\]\[
\mathbb{P}(X = 2) = C(17, 2) \cdot (0.05)^2 \cdot (0.95)^{15} = 136 \cdot 0.0025 \cdot (0.95)^{15} \approx 136 \cdot 0.0025 \cdot 0.4633 \approx 0.1575
\]\[
\mathbb{P}(X = 3) = C(17, 3) \cdot (0.05)^3 \cdot (0.95)^{14} = 680 \cdot 0.000125 \cdot (0.95)^{14} \approx 680 \cdot 0.000125 \cdot 0.4877 \approx 0.0415
\]
Geometric Distribution 几何分布
与二项分布的“n次实验k次成功的概率”不同,几何分布关心的是,试验k次才得到第一次成功的机率。用几何分布的概率质量函数表示为:
\[
P\left( X = k \right) = \left( 1 – p \right)^{k – 1} p, \quad k = 1, 2, \ldots
\]
为什么几何分布的概率质量函数的计算前面没有二项分布那样前面有组合数?
概率质量函数,计算的是某事件发生的概率,有两种计算思路:
一种是符合条件的事件数×该事件发生的概率+其他符合条件的事件数×该事件发生的概率……。
另一种是符合条件的事件数 / 事件的总数,这种一般适合组合和排列不太适合可以有重复情况的例题。
二项分布和几何分布都属于用第一种方式计算概率质量函数
回到主题为什么二项分布的概率质量函数前没有组合数,因为其分布限制了只能最后一个为反例,也就是说符合事件条件的事件数只能为1,而二项分布符合条件的事件数有很多,要用组合数计算。但他们后面跟的都是该事件发生的概率
记作Y∼Geometric(p),P表示成功的概率,注意与二项分布相同,每次事件发生(成功)的概率是相同的
期望:\(E(Y) = \frac{1}{p} \quad\)
方差:\(\mathrm{Var}(Y) = \frac{1 – p}{p^{2}}\)
几何分布的期望定义为:
\[
E(Y) = \sum_{m=1}^{\infty} m \cdot P(Y=m)
\]根据几何分布的概率质量函数 \( P(Y=m) = p(1-p)^{m-1} \),代入上式:
\[
E(Y) = \sum_{m=1}^{\infty} m \cdot p(1-p)^{m-1}
\]将 \( p \) 提出求和符号:\[
E(Y) = p \sum_{m=1}^{\infty} m(1-p)^{m-1}
\]我们知道,对于 \( |x| < 1 \),有:\[
\sum_{m=1}^{\infty} mx^{m-1} = \frac{1}{(1-x)^2}
\]令 \( x = 1 – p \),则:\[
\sum_{m=1}^{\infty} m(1-p)^{m-1} = \frac{1}{(1-(1-p))^2} = \frac{1}{p^2}
\]因此:\[
E(Y) = p \cdot \frac{1}{p^2} = \frac{1}{p}
\]
二项分布与几何分布杂交题
Poisson Distribution 泊松分布
泊松分布是二项分布的极限形式。当 \(n \to \infty\) 且 \(p \to 0\),且 \(np = \lambda\)平均发生率 固定时,二项分布 \(B(n, p)\) 趋近于泊松分布 \(\text{Poisson}(\lambda)\)。
np=λ 的常数性保证了模型在近似时的稳定性。例如,在单位时间内电话呼叫次数、放射性衰变事件等场景中,尽管事件概率 p 极低,但大量独立试验下事件的平均发生率 λ 是固定的。
随机变量 X 服从参数为 \(\lambda > 0\) 的泊松分布,若其取值为 \(X \in \{0, 1, 2, \ldots\}\),且:
\(\mathbb{P}(X = m) = \frac{\lambda^m e^{-\lambda}}{m!}, \quad m = 0, 1, \ldots\)
记为 \(X \sim \text{Poisson}(\lambda)\)
定义了参数为 λ 的泊松分布 Z。我们将假设它给出了X∼B(n,p)的有效近似
泊松分布的期望和方差均为 \(\lambda\)
例:批量生产的针以每盒 1000支包装。据信,平均每 2000支针中有 11 支不合格。求一盒中有 22 支或更多不合格针的概率
由于 n较大且 p较小,可以使用泊松分布来近似二项分布。泊松分布的参数 λ为:λ=n⋅p=1000⋅0.0005=0.5
我们需要计算 \(\mathbb{P}(X \geq 2)\), 即:
\[
\mathbb{P}(X \geq 2) = 1 – \mathbb{P}(X = 0) – \mathbb{P}(X = 1)
\]
计算 \(\mathbb{P}(X = 0)\) 和 \(\mathbb{P}(X = 1)\):
\[
\mathbb{P}(X = 0) = e^{-0.5} \frac{0.5^0}{0!} = e^{-0.5} \approx 0.6065
\]
\[
\mathbb{P}(X = 1) = e^{-0.5} \frac{0.5^1}{1!} = 0.5 \cdot e^{-0.5} \approx 0.3033
\]
因此:
\[
\mathbb{P}(X \geq 2) = 1 – 0.6065 – 0.3033 = 0.0902
\]
例3:泊松分布与二项分布的对比
例4:注意隐藏的试验次数1周
例5:平均发生率已知,所以用泊松分布
例6:如果更改前提条件,注意修改平均值\(lambda\)。对单天内使用泊松分布,对整体使用二项分布
Continuous Random Variables
累积分布函数的3条性质
Uniform Distribution 均匀分布
均匀分布既可以是离散型的,也可以是连续型的
若随机变量 X 在连续区间 [a,b]上取值,且任意子区间的概率密度相同,则服从连续均匀分布。
例题:
Exponential Distribution 指数分布
例题:
例2:
Normal Distribution正态分布 / Gaussian Distribution 高斯分布
二项分布的条件和几何分布相同,泊松分布是对二项分布在一定条件下的近似,但这些都是离散变量的分布,接下来是连续变量的分布,正态分布描述了由均值 \(\mu\) 和标准差 \(\sigma\) 表征的连续概率分布,通常记作 \(X \sim N(\mu, \sigma^2)\)。概率密度函数(PDF)为:
– \(\mu\)(均值):分布的中心位置。
– \(\sigma\)(标准差):衡量分布的扩散程度。
– \(\sigma^2\)(方差):量化值的离散程度。
– 归一化因子 \(\frac{1}{\sigma\sqrt{2\pi}}\):确保总概率积分为1。
– 指数项 \(e^{-\frac{(x – \mu)^2}{2\sigma^2}}\):控制钟形形状,随着 \(x\) 远离 \(\mu\),概率减小。
正态分布的概率密度函数显示为典型的钟形曲线,这一形状类似于寺庙中的大钟,因此也常被称为钟形曲线。作为一种连续分布,正态分布拥有完备的概率密度函数(上)、累积分布函数(下)、矩生成函数(拉普拉斯变换)和特征函数等表达形式,并且具备明确的期望(即均值)、方差、偏度和峰度等数值特征