Usual Discrete Random Variables常见离散随机变量

本文最后更新于4 天前，其中的信息可能已经过时，如有错误请留言

离散变量的概率质量函数PMF和概率累积分布函数CDF

\( X \) 的概率质量函数；这是一个函数 \( f_X: \mathbb{Z} \to [0,1] \)，定义为 \( f_X(n) = \mathbb{P}(A_n) = \mathbb{P}(X = n) \)，表示随机变量 X 取值小于或等于给定值 x 的概率。累积分布函数为：

\[
F(x) = \sum_{x_i \leq x} f(x_i).
\]对于连续型随机变量 \( X \)，其累积分布函数 \( F_X(x) \) 定义为：
\[
F_X(x) = \mathbb{P}(X \leq x) = \int_{-\infty}^{x} f_X(t) \, dt,
\]其中 \( f_X(x) \) 是概率密度函数（PDF）。根据微积分基本定理，对 \( F_X(x) \) 求导即可恢复 PDF：\[
f_X(x) = \frac{d}{dx} F_X(x).
\]对累积分布函数（CDF）求导可以得到概率密度函数（PDF）

需要满足：\[ \sum_{n \in \mathbb{Z}} f_X(n) = \sum_{n \in \mathbb{Z}} \mathbb{P}(X = n) = 1 \]

或 \(\int_{-\infty}^{+\infty} f_X(x)dx = 1\)

为什么不需要乘以自变量：CDF 的目的是计算 X落在某个区间内的概率（如 P(X≤x)。在计算某些期望值或矩时，会用到 x 与概率的乘积

离散型随机变量的一个特征是其对应的分布函数是阶梯函数。

已知离散变量的概率求CDF

已知连续变量CDF求PDF – 对CDF求导

假设X是一个随机变量，其累积分布函数为： \[ F_X(x)= \begin{cases} 0, & x < 1 \\ (x – 1)^5, & 1\leq x\leq 2 \\ 1, & 其他 \end{cases} \] 求X的概率密度函数。解：首先注意到函数\(F_X\)是连续的，因此该随机变量是连续型随机变量。为了找到X的概率密度函数，我们只需要对\(F_X\)求导，实际上： \[ f_X(x)=\frac{dF_X(x)}{dx}= \begin{cases} 0, & x < 1 \\ 5(x – 1)^4, & 1\leq x\leq 2 \\ 0, & 其他 \end{cases} \]

例1. 某公司为顾客生产了七台大型机器，其中三台不符合顾客的规格要求。质检员随机抽取两台机器进行检查。设离散型随机变量 X表示被检查的机器中符合顾客规格的数量。

已知连续变量PDF求CDF – 求积分

求与具有概率密度函数的连续型随机变量Y相关的累积分布\(F_Y\) \[ f_Y(y)= \begin{cases} 4(y – 2)^3, & 2\leq y\leq 3 \\ 0, & 其他 \end{cases} \] 解：首先注意到\(f_Y\)确实满足命题2的性质，因为对所有y， \(f_Y(y)\geq0\)，并且 \[ \int_{-\infty}^{+\infty} f_Y(y)dy = \int_{2}^{3} 4(y – 2)^3dy = [(y – 2)^4]_2^3 = 1 \] 由于 \[ F_Y(y) = \int_{-\infty}^{y} f_Y(t)dt \] 我们考虑三种情况\(y\lt2\)、\(2\leq y\leq3\)和\(y\gt3\)，得到： \[ F_Y(y)= \begin{cases} 0, & y\leq2 \\ (y – 2)^4, & 2\leq y\leq3 \\ 1, & 3\leq y \end{cases} \]

根据PDF的两个条件求
计算区间中PDF值
用PDF计算期望和方差

已知\(f(y)=cy^2\)，\(0\leq y\leq5\)，其他情况\(f(y)=0\)，求使\(f(y)\)成为有效密度函数的\(c\)值。解：我们必须检查\(f\)是否满足命题2中的条件，即\(f(y)\geq0\)对所有\(y\)成立（这要求\(c\geq0\)），并且\(\int_{-\infty}^{\infty}f(y)dy = 1\)。现在我们计算 \[ \int_{-\infty}^{\infty}f(y)dy=\left[\frac{c}{3}y^3\right]_0^5=\frac{125c}{3} \] 因此我们发现\(c = \frac{3}{125}\)。例6：在前面的例子中，\(Y\)的\(\mathbb{P}(1\leq Y\leq3)\)和\(\mathbb{P}(1\lt Y\lt3)\)是多少？解：由于对于任何特定值\(y\)，\(\mathbb{P}(Y = y)=0\)，所以我们有\(\mathbb{P}(1\leq Y\leq3)=\mathbb{P}(1\lt Y\lt3)\)。现在，我们计算： \[ \mathbb{P}(1\leq Y\leq3)=\frac{3}{125}\left[\frac{y^3}{3}\right]_1^3=\frac{(27 – 1)}{125}=\frac{26}{125} \]

通过变量变换来求一个新随机变量的PDF/PMF

连续变量 PDF：

给定一个随机变量 \( X \) 和它的概率密度函数 \( f_X(x) \)，比如它是从 0 到 1 之间均匀分布的。现在你用一个函数 \( Y = g(X) \)，比如 \(Y = -\ln(X)\)，来 “加工” 这个 X，得到了一个新随机变量 Y。

我们需要找到 \( Y \) 的概率密度函数 \( f_Y(y) \)。对于单调函数的随机变量变换，可以使用以下公式： \[ f_Y(y) = f_X\left(g^{-1}(y)\right) \cdot \left| \frac{d}{dy}g^{-1}(y) \right| \]

概率密度虽然不是概率，但它乘上区间长度就是概率，比如：\(P(a \leq X \leq b) \approx f_X(x) \cdot (b – a)\)

现在如果你做了变量变换 \(Y = g(X)\)，那么：

原来的区间长度是 dx

变换后的区间长度是 dy

为了保持概率不变，我们有：\(f_X(x) \cdot dx = f_Y(y) \cdot dy\)

两边都除以 dy，得到：\(f_Y(y) = f_X(x) \cdot \frac{dx}{dy} = f_X\left(g^{-1}(y)\right) \cdot \left| \frac{d}{dy}g^{-1}(y) \right|\)

导数 \(\frac{dx}{dy}\) 哪里来的？区间缩放比例变化的产物。为什么求逆函数？输入从x变成y

\( f_Y(y) \)：是变量 \( Y \) 的密度函数（表示 \( Y \) 取值为 \( y \) 时的密度）； – \( f_X(x) \)：是变量 \( X \) 的密度函数； – 所以整个变换公式里，我们用的是 \( X \) 的密度函数，来间接推导出 \( Y \) 的密度函数

离散变量PMF：

独立性

以上为对之前知识的回顾，现在开始学习新的内容 – 常见的离散随机变量

常见分布

某些类型的随机变量在实践中出现得非常频繁，因此了解相关数值事件的概率非常有用。这种概率的集合称为离散随机变量的概率分布。许多实验表现出相似的特征，并生成具有相同类型概率分布的随机变量。了解常见的概率分布可以节省大量时间，因为我们不需要反复解决相同的概率问题。在本课程中，我们将学习四种离散分布：伯努利分布、二项分布、泊松分布和几何分布。

Binomial Distribution 伯努利分布(二项分布)

条件：

某个事件发生的次数有限
事件的结果有且只有两种（成功或失败）
事件的结果的概率相等且不变。比如每次抛硬币相同面朝上的概率是一样的
各个实验之间相互独立

公式：假设试验成功的概率为 \( p \)，所以失败的概率为 \( 1 – p \)，设为 \( q \)。现在进行这个试验，假设这个试验进行了 \( n \) 次，有 \( r \) 次获得了成功。用二项分布的概率质量函数表示为： \[ P(X = r) = C_n^r \ p^r \ q^{n-r} \]

前面表示在 n 次试验中获得 r 次成功和(n−r)次失败的方式数量。因为试验的所有结果都需要被考虑。
后面表示在特定排列下获得 x 次成功和(n−x)次失败的概率。
相当于把满足条件的所有情况的概率加起来

符号 X∼B(n,p)表示随机变量 X服从参数为 n 和 p 的二项分布。n表示试验的次数。p表示每次试验成功的概率，反过来说如果 x 是二项实验 n 次试验中成功的总次数，那么 x 就是一个二项随机变量。

E[X]=np，Var(X)=np(1−p)

例：沿着某条赛道行驶的山地自行车骑手爆胎的概率为 0.05。求在 17 名骑手中：

这是一个二项分布问题，题目告诉我们：

爆胎概率 \(p = 0.05\)

骑手人数 \(n = 17\)

设 \(X \sim B(n = 17, p = 0.05)\)：表示爆胎的人数。

(a) 恰好有一人爆胎

(b) 最多三人爆胎

P(X=0)+P(X=1)+P(X=2)+P(X=3)\[
\mathbb{P}(X \leq 3) \approx 0.4181 + 0.3741 + 0.1575 + 0.0415 \approx 0.9912
\]

需要计算 P(X≥2)，即 1−P(X<2)=1−P(X=0)−P(X=1)\[
\mathbb{P}(X \geq 2) = 1 – 0.4181 – 0.3741 \approx 0.2078
\]

解. 设 X为爆胎的骑手数量，则 X∼B(17,0.05)，表示试验次数17次，每次爆胎的概率为0.05

\[
\mathbb{P}(X = 0) = C(17, 0) \cdot (0.05)^0 \cdot (0.95)^{17} = 1 \cdot 1 \cdot (0.95)^{17} \approx 0.4181
\]\[
\mathbb{P}(X=1) = C(17,1) \cdot (0.05)^1 \cdot (0.95)^{16}
\]\[
\mathbb{P}(X = 2) = C(17, 2) \cdot (0.05)^2 \cdot (0.95)^{15} = 136 \cdot 0.0025 \cdot (0.95)^{15} \approx 136 \cdot 0.0025 \cdot 0.4633 \approx 0.1575
\]\[
\mathbb{P}(X = 3) = C(17, 3) \cdot (0.05)^3 \cdot (0.95)^{14} = 680 \cdot 0.000125 \cdot (0.95)^{14} \approx 680 \cdot 0.000125 \cdot 0.4877 \approx 0.0415
\]

Geometric Distribution 几何分布

与二项分布的“n次实验k次成功的概率”不同，几何分布关心的是，试验k次才得到第一次成功的机率。用几何分布的概率质量函数表示为：
\[
P\left( X = k \right) = \left( 1 – p \right)^{k – 1} p, \quad k = 1, 2, \ldots
\]

为什么几何分布的概率质量函数的计算前面没有二项分布那样前面有组合数？
概率质量函数，计算的是某事件发生的概率，有两种计算思路：
一种是所有符合条件的事件×对应发生的概率的和。
另一种是符合条件的事件数 / 事件的总数，这种一般适合组合和排列不太适合可以有重复情况的例题。
二项分布和几何分布都属于用第一种方式计算概率质量函数
回到主题为什么几何分布的概率质量函数前没有组合数，因为其分布限制了只能最后一个为反例，也就是说符合事件条件的事件数只能为1，而二项分布符合条件的事件数有很多，要用组合数计算。但他们后面跟的都是该事件发生的概率

记作Y∼Geometric(p)，P表示成功的概率，注意与二项分布相同，每次事件发生(成功)的概率是相同的

期望：\(E(Y) = \frac{1}{p} \quad\)

方差：\(\mathrm{Var}(Y) = \frac{1 – p}{p^{2}}\)

几何分布的期望定义为：
\[
E(Y) = \sum_{m=1}^{\infty} m \cdot P(Y=m)
\]根据几何分布的概率质量函数 \( P(Y=m) = p(1-p)^{m-1} \)，代入上式：
\[
E(Y) = \sum_{m=1}^{\infty} m \cdot p(1-p)^{m-1}
\]将 \( p \) 提出求和符号：\[
E(Y) = p \sum_{m=1}^{\infty} m(1-p)^{m-1}
\]我们知道，对于 \( |x| < 1 \)，有：\[
\sum_{m=1}^{\infty} mx^{m-1} = \frac{1}{(1-x)^2}
\]令 \( x = 1 – p \)，则：\[
\sum_{m=1}^{\infty} m(1-p)^{m-1} = \frac{1}{(1-(1-p))^2} = \frac{1}{p^2}
\]因此：\[
E(Y) = p \cdot \frac{1}{p^2} = \frac{1}{p}
\]

二项分布与几何分布杂交题

Poisson Distribution 泊松分布

泊松分布用于描述特定间隔内事件发生次数，需满足等长间隔事件发生概率相同、不同间隔事件发生相互独立。其是二项分布在\(n\to\infty\)、\(p\to0\)且\(np = \lambda\)（平均发生率固定）时的极限形式。若预期发生次数为\(\lambda\)，事件发生\(m\)次的概率为\(P(X = m)=\frac{\lambda^{m}e^{-\lambda}}{m!}\)（\(m = 0,1,\dots\)），记为\(X\sim\text{Poisson}(\lambda)\)，且期望和方差均为\(\lambda\)。

记为 \(X \sim \text{Poisson}(\lambda)\)

定义了参数为 λ 的泊松分布 Z。我们将假设它给出了X∼B(n,p)的有效近似

泊松分布的期望和方差均为 \(\lambda\)

例：批量生产的针以每盒 1000支包装。据信，平均每 2000支针中有 11 支不合格。求一盒中有 22 支或更多不合格针的概率

由于 n较大且 p较小，可以使用泊松分布来近似二项分布。泊松分布的参数 λ为：λ=n⋅p=1000⋅0.0005=0.5

我们需要计算 \(\mathbb{P}(X \geq 2)\), 即:
\[
\mathbb{P}(X \geq 2) = 1 – \mathbb{P}(X = 0) – \mathbb{P}(X = 1)
\]
计算 \(\mathbb{P}(X = 0)\) 和 \(\mathbb{P}(X = 1)\):
\[
\mathbb{P}(X = 0) = e^{-0.5} \frac{0.5^0}{0!} = e^{-0.5} \approx 0.6065
\]
\[
\mathbb{P}(X = 1) = e^{-0.5} \frac{0.5^1}{1!} = 0.5 \cdot e^{-0.5} \approx 0.3033
\]
因此:
\[
\mathbb{P}(X \geq 2) = 1 – 0.6065 – 0.3033 = 0.0902
\]

例3：泊松分布与二项分布的对比

例4：注意隐藏的试验次数1周

例5：平均发生率已知，所以用泊松分布

例6：如果更改前提条件，注意修改平均值\(lambda\)。对单天内使用泊松分布，对整体使用二项分布

Continuous Random Variables

累积分布函数的3条性质

连续型概率分布的性质

对所有x，均有f(x)≥0
概率曲线f(x)下方的总面积等于 1

重点强调：连续型概率分布曲线下的面积代表概率。

常见连续型概率分布

连续型随机变量的概率密度函数包含了该变量的全部信息。常用的概率密度函数有正态分布、均匀分布和指数分布，更复杂的分布则包括威布尔分布和伽马分布。

Uniform Distribution 均匀分布 U(a,b)

均匀分布既可以是离散型的，也可以是连续型的

若随机变量 X 在连续区间 [a,b]上取值，且任意子区间的概率密度相同，则服从连续均匀分布。

例题：

例题（新）：

Exponential Distribution 指数分布

例题：

例2：

The Gamma distribution 伽马分布

The Pareto distribution 帕累托分布

注意F(x)累积分布函数CDF定义中的积分上下限是x，下限是负无穷，但是实际应用在常用分布的概率密度函数时，由于0区间，实际都会修改上下限

Normal Distribution正态分布 / Gaussian Distribution 高斯分布

二项分布的条件和几何分布相同，泊松分布是对二项分布在一定条件下的近似，但这些都是离散变量的分布，接下来是连续变量的分布，正态分布描述了由均值 \(\mu\) 和标准差 \(\sigma\) 表征的连续概率分布,通常记作 \(X \sim N(\mu, \sigma^2)\)。概率密度函数（PDF）为：

– \(\mu\)（均值）：分布的中心位置。
– \(\sigma\)（标准差）：衡量分布的扩散程度。
– \(\sigma^2\)（方差）：量化值的离散程度。
– 归一化因子 \(\frac{1}{\sigma\sqrt{2\pi}}\)：确保总概率积分为1。

所以不需要计算方差和期望，分布中的两个参数即为期望和方差
– 指数项 \(e^{-\frac{(x – \mu)^2}{2\sigma^2}}\)：控制钟形形状，随着 \(x\) 远离 \(\mu\)，概率减小。

正态概率分布 \(N(\mu,\sigma^{2})\) 的图像是钟形的，关于均值 \(\mu\) 对称，标准差为 \(\sigma\)（见图1）。曲线下的总面积为1，对应总概率。分布的形状取决于两个特征：均值 \(\mu\) 和标准差 \(\sigma\)。知道这两个参数就足以描述相关正态分布的形状。均值决定了曲线的位置，而标准差决定了它的离散程度

概率曲线 / 概率密度函数：若连续型随机变量x落在某一指定数值区间的概率，等于概率曲线f(x)在该区间下方对应的面积，则曲线f(x)即为该随机变量x的连续型概率分布。阴影部分面积即为x落在a到b之间的概率，即阴影面积=P(a≤x≤b)

正态分布的线性性：

正态分布的概率计算

经验法则：

The standard normal distribution 标准正态分布

例题：正态分布的题目都要化成标准型

Integration of the normal distribution curve 正态分布曲线的积分 – Z值

设 X 为正态随机变量 \(X \sim N(\mu, \sigma^{2})\)。根据命题 1，随机变量 \(Z = \frac{X – \mu}{\sigma}\) 是标准正态随机变量 \(Z \sim N(0, 1)\)，我们称其为 X 的标准化形式。通过这种方式，我们可以将每个正态分布与标准正态分布联系起来。事实上，如果 \(F_{X}(x)\) 是 \(X \sim N(\mu, \sigma^{2})\) 的累积分布函数，那么 \(F(z) = F(\frac{x – \mu}{\sigma})\) 就是标准正态分布的累积分布函数，可用于计算 X 在给定区间内的概率。换句话说，标准正态分布表可用于查找与任何正态分布相关的概率。

Z是标准正态曲线下水平轴上的点

这个表的数值**是标准正态随机变量 Z 落在区间 \((-\infty, z)\) 内的概率**，即直线 \(Z = z\) 左侧的面积

注意，正态分布的参数是方差，但是标准化中减的是标准差
标准正态分布 \(Z \sim N(0,1)\) 是关于 \(Z = 0\) 对称的，即：
\(P(Z < -a) = P(Z > a)\)
且满足 \(P(Z < a) + P(Z > a) = 1\)

例1：

要计算正态分布 \(X \sim \mathcal{N}(\mu, \sigma^2)\) 的概率，核心方法是标准化变换：将 X 转换为标准正态变量 \(Z \sim \mathcal{N}(0, 1)\)，再利用标准正态分布的累积分布函数 \(\Phi(z)\)（表示 \(Z < z\) 的概率）查表或用已知值计算。