W8周之后所有内容（无实践）

本文最后更新于129 天前，其中的信息可能已经过时，如有错误请留言

条件概率

贝叶斯定理

贝叶斯定理非常实用，可实现条件的转换，例如：

概率核心公式

我们对这些公式的直接使用需求不多，但需关注其与混淆矩阵的关联。

混淆矩阵 Confusion Matrices

均值、平均值、期望值、中位数Median、众数Mode、方差

协方差和相关系数 Covariance and Correlation

协方差和相关系数用于描述变量间的关联强度：

正相关：一个变量增大时，另一个变量也倾向于增大；
负相关：一个变量增大时，另一个变量倾向于减小；
零相关：变量间无明显关联。

Polynomial Regression 多项式回归

多项式回归
数据的最佳拟合直线（或多项式）
代价与损失：均方误差（MSE）和总平方误差（TSE）
标准方法以及岭回归和 LASSO 正则化
用于分类的逻辑回归
上述方法的原理、数学基础及代码实现

1. 基本目标

构建模型$\hat{y}(x)$，通过特征x预测标签y，核心是找到 “最优” 多项式（或直线），使预测值与真实值的误差最小。

2. 线性回归（一阶多项式）

（1）模型形式

（2）损失与成本定义

损失（单数据点误差）：平方误差损失，即 $(y_i-\hat{y}(x_i))^2$ ，目的是消除误差符号影响。成本（整体误差）：均方误差（MSE），为所有损失的平均值，公式为：

\mathcal{E}=\frac{1}{N_{p}} \sum_{i}\left|y_{i}-\hat{y}_{i}\right|^{2}=\frac{1}{N_{p}}\| y-X \theta\| _{2}^{2}

其中

\| \cdot \|_2

为向量 2 – 范数（元素平方和的平方根）

补充术语：总平方误差（TSE）为未取平均的损失和；部分文献中 MSE 被称为 “经验风险”，IPDS 中 “损失” 特指 TSE（无平均），但核心计算逻辑一致。

（3）最优参数求解：正规方程

先分清要找谁的最小值，我们要找使损失函数最小的$\theta$，因此当$\theta$满足以下条件时：

3. 高阶多项式回归

（2）示例：二次与五次多项式

二次多项式：设计矩阵包含 1、x、$x^2$列，拟合曲线比直线更贴合部分数据波动。
五次多项式：6 个数据点可被五次多项式完全拟合（自由度与数据点数量匹配），但需通过密集x网格（如步长 0.1）才能呈现平滑曲线。

（3）关键问题：过拟合

现象：五次多项式完美贴合训练数据，但对新增测试数据（$(1,2)、(3,3)、(6,5)$）预测误差大。
本质：模型过度学习训练数据中的噪声，丧失泛化能力。
解决方案：引入验证集，在模型训练中监控泛化性能，避免过度复杂。

正则化 Regularization：解决过拟合over fitting与病态问题

1. 正则化的核心目的

处理 “病态问题”（如数据含异常值、特征冗余），避免模型出现 “虚假解”，平衡拟合效果与泛化能力。

2. 正则化成本函数

在 TSE 基础上添加参数惩罚项，形式为：

$\mathcal {E}_{\alpha }(\theta )=\| y-X\theta \| _{2}^{2}+\alpha \| \theta \| _{p}^{p}$

$\alpha \geq0$：正则化参数，$\alpha=0$退化为普通 OLS，$\alpha<0$无意义（惩罚项为负，无法约束参数）。
$\| \theta \|_p^p$：参数的p范数惩罚，核心分三类：

3. 三种正则化方法

4. 正则化参数$\alpha$的权衡

$\alpha$过小：惩罚不足，接近 OLS，仍可能过拟合或受病态问题影响。
$\alpha$过大：惩罚过重，参数过度压缩，模型过于简单，可能欠拟合（偏离真实数据规律）。
选择方式：无通用规则，需通过交叉验证（ trial and error ）确定最优$\alpha$。

五、多元线性回归

1. 模型场景

当预测目标受多个独立变量（特征）影响时（如房价受面积、地段、房龄影响），而非单一特征的高阶多项式。

2. 模型形式

$\hat{y}(x)=\theta_0+\theta_1 x_1+\theta_2 x_2+\cdots+\theta_p x_p$

特征矩阵X：每行对应一个数据点，列包括 1（截距项）和p个特征，形式为：$X=\left( \begin{array} {llll}{1}&{x_{1,1}}&{x_{2,1}}&{\cdots }\\ {1}&{x_{1,2}}&{x_{2,2}}&{\cdots }\\ {\vdots }&{\vdots }&{\vdots }&{\ddots }\end{array} \right)$
求解逻辑：仍通过最小化 MSE，求解正规方程$X^T X \theta=X^T y$，与单特征线性回归原理一致。

3. 关键问题：$p>n$（特征数 > 数据点数量）

（1）核心矛盾

定理：$X^T X$可逆的充要条件是X具有满列秩（列向量线性无关）。
矛盾推导：若$p>n$，X的列秩最大为n（小于p），故$X^T X$不可逆，无法通过$\theta=(X^T X)^{-1} X^T y$求解唯一参数。
补充：行秩与列秩相等（通过 SVD 分解可证，非零奇异值数量一致）。

（2）解决方案

无法通过传统正规方程求解，但可通过正则化（岭回归、LASSO）或数值方法最小化成本，scikit-learn 等库已封装相关实现，无需手动推导。

六、逻辑回归：回归用于分类

1. 核心定位

虽名为 “回归”，实则用于二分类任务，通过线性回归构建决策边界，结合 sigmoid 函数实现类别划分。

2. sigmoid 函数（逻辑函数）

（1）基础形式

$\sigma(x | a)=\frac{1}{1+exp(-a x)} \quad (a>0)$

特性：输出值映射到$(0,1)$区间，可表示 “属于某类的概率”。
参数影响：a控制曲线陡峭程度（a越大，曲线越陡，分类边界越清晰）；可通过$x_0$平移曲线，形式为$\sigma(x | a,x_0)=\frac{1}{1+exp(-a(x-x_0))}$。

（2）多维扩展（二特征示例）

$\sigma(x_1,x_2 | a,b,c)=\frac{1}{1+exp(-(a x_1 + b x_2 + c))}$

决策边界：当$\sigma=0.5$时，$a x_1 + b x_2 + c=0$（直线），一侧$\sigma \to 1$（类 1），另一侧$\sigma \to 0$（类 2）。
3D 可视化：以$x_1$（花萼宽度）、$x_2$（花瓣长度）为特征，sigmoid 值为 z 轴，呈现 “斜坡状” 分类面。

3. 数学本质：对数几率（log-odds）

几率：$\frac{p}{1-p}$（p为属于类 1 的概率）。
对数几率：$ln\left(\frac{p}{1-p}\right)=\theta^T x$（$\theta=(\theta_0,\theta_1,…,\theta_p)^T$，$x=(1,x_1,x_2,…,x_p)^T$），即对数几率与特征呈线性关系，连接线性回归与分类任务。

Principal Component Analysis

高维数据其实大多靠近一个低维 subspace，我们要找到这个低维 subspace，既压缩维度，又尽量保留原始数据的关键信息

通俗说：找几个 “主成分”（其实就是前面讲的特征向量），让数据投影到这些主成分上后，“方差最大”—— 方差越大，说明保留的原始信息越多；专业说：找到一个矩阵 B，让数据 X 乘 B 再乘 B 的转置（Z = X B Bᵀ），Z 是 X 的近似（重构），重构误差（原始数据 X 和重构数据 Z 的差距）最小。

协方差矩阵（描述数据的 “变化关系”）

Explained Variance 解释方差

例子：

数据 X：假设我们有一组数据，比如 “10 个学生的 3 项成绩（语文、数学、英语）”，那么：

每一行是 1 个学生（“一个观测值”），
每一列是 1 个科目（“一个特征”），
所以语文成绩列数学成绩列英语成绩列（对应图里的 X=[x0,x1,x2]）。

假设我们有 3 个学生（N=3），他们的 2 项成绩（特征数 D=2：语文x0、数学x1）：

学生 1：语文 80，数学 85 → x0=[80],x1=[85]

学生 2：语文 85，数学 90 → x0=[85],x1=[90]

学生 3：语文 90，数学 95 → x0=[90],x1=[95]

支持向量机

我们需要一个决策边界 —— 在这个案例中，它将是一条能够分离两个品种的直线。之后，我们就可以根据新数据落在直线的哪一侧来对其进行分类，这与我们在逻辑回归中所描述的方法类似。需要注意的是，我们可以清楚地看到，用一条直线就能分离这两个品种。能够通过这种方式分离的数据集被称为线性可分数据集。

1.2.1 最大边际

SVM 的核心是找到 “最优决策边界”—— 即位于两条平行分离线正中间的直线，这两条平行分离线需尽可能远离，它们之间的间隙称为 “分离间隔（separating margin）”，SVM 目标是最大化该间隔。间隔最大化的意义：间隔越宽，未见过的测试数据和未来数据落在正确分类侧的概率越高，模型泛化能力越强

决策边界的一个非常合理的选择是：与两个类别都保持最大间隔的那条边界。

我们认为，决策边界的一个非常合理的选择是：与两个类别都保持最大间隔的那条边界。
我们有两个类别
一个正类 y1，标签为 +1
一个负类 y2，标签为 -1
权重向量 w 和偏置 b 的构建方式是：线性模型的输出始终大于 1（对应正类）或小于 – 1（对应负类）

为了计算间隔ρ，
我们先计算正类中的点x3到决策边界的最近距离。
这个距离可以通过将线段对应的向量x3−x1投影到方向向量w上来计算：

这意味着，要最大化间隔ρ，我们需要最小化权重向量w的范数。
基于上述分析，我们的任务现在变成：
找到一个带有参数w和b的决策边界，使得
minw,b21∥w∥2
满足约束条件：
yi(wTxi+b)−1≥0∀ i=1,2,⋯,n

点、直线、平面与超平面

优化问题（Optimization Problem）

Perception 感知机

感知机是一种计算单元，它接收一个数值输入向量x，并通过权重向量w对其进行线性组合，随后可添加一个数值偏置b，得到一个实数结果。

激活函数的作用是判断输入信号的重要性，决定是否抑制该信号或传递其某种形式的输出。

感知机的结构示意图如下：输入向量x=(x1,x2,x3)T与权重向量w=(w1,w2,w3)T进行线性组合，添加可选偏置b后得到结果n，再将n输入激活函数σ:R→R，最终输出y。其数学表达式为：

简洁表达式：y=σ(wTx+b)。

激活函数 activation function – The Heaviside Unit Step function

简单前馈神经网络 A simple feed forward neural net

将输入划分为两类（输出 1 或 0）

四分类问题 Four Classes

据此可将输入分为四类：C1、C2、C3、C4。
决策边界由以下两个方程确定：x1−6×2+1=0（即x2=(x1+1)/6）和2×1+4×2+2=0（即x2=−(x1+1)/2）。
该神经网络通过y的第一个元素判断输入点是否在直线x1−6×2+1=0的上方或下方，通过第二个元素判断输入点是否在直线2×1+4×2+2=0的上方或下方，进而确定输入点所属的类别。

人工神经网络 Artificial Neural Network

前馈 feeding forward：输入层的输入信号通过重复权重计算、偏置添加和激活处理等步骤在网络中传播，最终在最右侧的输出层得到输出结果

我们需要选择所有权重和偏置，使误差最小化。

代价最小化的常用方法是随机梯度下降（Stochastic Gradient Descent）。

梯度下降概述

-∇f 指示函数 f 下降最快的方向。

通常会绘制代价随轮数的变化曲线。理想情况下，代价应逐渐趋近于 0（或接近 0）。若未出现这种趋势，说明训练效果不佳，需调整超参数

熵 Entropy

交叉熵损失函数是一种常用的替代方案，有时被认为在分类问题中更具优势。

熵是衡量随机变量不确定性或意外程度的指标，熵值越大，不确定性越高。

信息

交叉熵 Cross Entropy

核心作用：替代 TSE（平方误差），作为分类问题的损失函数（衡量模型输出与真实标签的差距）

Softmax

问题：sigmoid 函数只能让输出在 0-1 之间，但无法保证总和为 1（比如 y=(0.13,0.25,0.75,0.31)，总和 1.44，不是概率）

通俗理解：分子是 e 的 x_j 次方（放大差异），分母是所有 e 的 x_i 次方和（归一化），最终结果每个元素在 0-1 之间，总和为 1，完美适配交叉熵损失

完整的前向与反向传播算法（含交叉熵）

为了更新权重系数w1 – w6，目的是为了减小损失函数的数值
因此采用梯度下降的方法，计算损失函数与每一个系数的偏导数更新偏导数