W8周之后所有内容(无实践)
本文最后更新于83 天前,其中的信息可能已经过时,如有错误请留言

条件概率

贝叶斯定理

贝叶斯定理非常实用,可实现条件的转换,例如:

概率核心公式

我们对这些公式的直接使用需求不多,但需关注其与混淆矩阵的关联。

混淆矩阵 Confusion Matrices

均值、平均值、期望值、中位数Median、众数Mode、方差

协方差和相关系数 Covariance and Correlation

协方差和相关系数用于描述变量间的关联强度:

  • 正相关:一个变量增大时,另一个变量也倾向于增大;
  • 负相关:一个变量增大时,另一个变量倾向于减小;
  • 零相关:变量间无明显关联。

Polynomial Regression 多项式回归

  • 多项式回归
  • 数据的最佳拟合直线(或多项式)
  • 代价与损失:均方误差(MSE)和总平方误差(TSE)
  • 标准方法以及岭回归和 LASSO 正则化
  • 用于分类的逻辑回归
  • 上述方法的原理、数学基础及代码实现

1. 基本目标

构建模型\(\hat{y}(x)\),通过特征x预测标签y,核心是找到 “最优” 多项式(或直线),使预测值与真实值的误差最小。

2. 线性回归(一阶多项式)

(1)模型形式

(2)损失与成本定义

损失(单数据点误差):平方误差损失,即\((y_i-\hat{y}(x_i))^2\),目的是消除误差符号影响。成本(整体误差):均方误差(MSE),为所有损失的平均值,公式为:

\(\mathcal{E}=\frac{1}{N_{p}} \sum_{i}\left|y_{i}-\hat{y}_{i}\right|^{2}=\frac{1}{N_{p}}\| y-X \theta\| _{2}^{2}\)
其中\(\| \cdot \|_2\)为向量 2 – 范数(元素平方和的平方根)

补充术语:总平方误差(TSE)为未取平均的损失和;部分文献中 MSE 被称为 “经验风险”,IPDS 中 “损失” 特指 TSE(无平均),但核心计算逻辑一致。

(3)最优参数求解:正规方程

先分清要找谁的最小值,我们要找使损失函数最小的\(\theta\),因此当\(\theta\)满足以下条件时:

3. 高阶多项式回归

(2)示例:二次与五次多项式

  • 二次多项式:设计矩阵包含 1、x、\(x^2\)列,拟合曲线比直线更贴合部分数据波动。
  • 五次多项式:6 个数据点可被五次多项式完全拟合(自由度与数据点数量匹配),但需通过密集x网格(如步长 0.1)才能呈现平滑曲线。

(3)关键问题:过拟合

  • 现象:五次多项式完美贴合训练数据,但对新增测试数据(\((1,2)、(3,3)、(6,5)\))预测误差大。
  • 本质:模型过度学习训练数据中的噪声,丧失泛化能力。
  • 解决方案:引入验证集,在模型训练中监控泛化性能,避免过度复杂。

正则化 Regularization:解决过拟合over fitting与病态问题

1. 正则化的核心目的

处理 “病态问题”(如数据含异常值、特征冗余),避免模型出现 “虚假解”,平衡拟合效果与泛化能力。

2. 正则化成本函数

在 TSE 基础上添加参数惩罚项,形式为:

\(\mathcal {E}_{\alpha }(\theta )=\| y-X\theta \| _{2}^{2}+\alpha \| \theta \| _{p}^{p}\)

  • \(\alpha \geq0\):正则化参数,\(\alpha=0\)退化为普通 OLS,\(\alpha<0\)无意义(惩罚项为负,无法约束参数)。
  • \(\| \theta \|_p^p\):参数的p范数惩罚,核心分三类:

3. 三种正则化方法

4. 正则化参数\(\alpha\)的权衡

  • \(\alpha\)过小:惩罚不足,接近 OLS,仍可能过拟合或受病态问题影响。
  • \(\alpha\)过大:惩罚过重,参数过度压缩,模型过于简单,可能欠拟合(偏离真实数据规律)。
  • 选择方式:无通用规则,需通过交叉验证( trial and error )确定最优\(\alpha\)。

五、多元线性回归

1. 模型场景

当预测目标受多个独立变量(特征)影响时(如房价受面积、地段、房龄影响),而非单一特征的高阶多项式。

2. 模型形式

\(\hat{y}(x)=\theta_0+\theta_1 x_1+\theta_2 x_2+\cdots+\theta_p x_p\)

  • 特征矩阵X:每行对应一个数据点,列包括 1(截距项)和p个特征,形式为:\(X=\left( \begin{array} {llll}{1}&{x_{1,1}}&{x_{2,1}}&{\cdots }\\ {1}&{x_{1,2}}&{x_{2,2}}&{\cdots }\\ {\vdots }&{\vdots }&{\vdots }&{\ddots }\end{array} \right)\)
  • 求解逻辑:仍通过最小化 MSE,求解正规方程\(X^T X \theta=X^T y\),与单特征线性回归原理一致。

3. 关键问题:\(p>n\)(特征数 > 数据点数量)

(1)核心矛盾

  • 定理:\(X^T X\)可逆的充要条件是X具有满列秩(列向量线性无关)。
  • 矛盾推导:若\(p>n\),X的列秩最大为n(小于p),故\(X^T X\)不可逆,无法通过\(\theta=(X^T X)^{-1} X^T y\)求解唯一参数。
  • 补充:行秩与列秩相等(通过 SVD 分解可证,非零奇异值数量一致)。

(2)解决方案

  • 无法通过传统正规方程求解,但可通过正则化(岭回归、LASSO)或数值方法最小化成本,scikit-learn 等库已封装相关实现,无需手动推导。

六、逻辑回归:回归用于分类

1. 核心定位

虽名为 “回归”,实则用于二分类任务,通过线性回归构建决策边界,结合 sigmoid 函数实现类别划分。

2. sigmoid 函数(逻辑函数)

(1)基础形式

\(\sigma(x | a)=\frac{1}{1+exp(-a x)} \quad (a>0)\)

  • 特性:输出值映射到\((0,1)\)区间,可表示 “属于某类的概率”。
  • 参数影响:a控制曲线陡峭程度(a越大,曲线越陡,分类边界越清晰);可通过\(x_0\)平移曲线,形式为\(\sigma(x | a,x_0)=\frac{1}{1+exp(-a(x-x_0))}\)。

(2)多维扩展(二特征示例)

\(\sigma(x_1,x_2 | a,b,c)=\frac{1}{1+exp(-(a x_1 + b x_2 + c))}\)

  • 决策边界:当\(\sigma=0.5\)时,\(a x_1 + b x_2 + c=0\)(直线),一侧\(\sigma \to 1\)(类 1),另一侧\(\sigma \to 0\)(类 2)。
  • 3D 可视化:以\(x_1\)(花萼宽度)、\(x_2\)(花瓣长度)为特征,sigmoid 值为 z 轴,呈现 “斜坡状” 分类面。

3. 数学本质:对数几率(log-odds)

  • 几率:\(\frac{p}{1-p}\)(p为属于类 1 的概率)。
  • 对数几率:\(ln\left(\frac{p}{1-p}\right)=\theta^T x\)(\(\theta=(\theta_0,\theta_1,…,\theta_p)^T\),\(x=(1,x_1,x_2,…,x_p)^T\)),即对数几率与特征呈线性关系,连接线性回归与分类任务。

Principal Component Analysis

高维数据其实大多靠近一个低维 subspace,我们要找到这个低维 subspace,既压缩维度,又尽量保留原始数据的关键信息

通俗说:找几个 “主成分”(其实就是前面讲的特征向量),让数据投影到这些主成分上后,“方差最大”—— 方差越大,说明保留的原始信息越多;专业说:找到一个矩阵 B,让数据 X 乘 B 再乘 B 的转置(Z = X B Bᵀ),Z 是 X 的近似(重构),重构误差(原始数据 X 和重构数据 Z 的差距)最小。

协方差矩阵(描述数据的 “变化关系”)

Explained Variance 解释方差

例子:

数据 X:假设我们有一组数据,比如 “10 个学生的 3 项成绩(语文、数学、英语)”,那么:

  • 每一行是 1 个学生(“一个观测值”),
  • 每一列是 1 个科目(“一个特征”),
  • 所以 语文成绩列数学成绩列英语成绩列(对应图里的 X=[x0​,x1​,x2​])。

假设我们有 3 个学生(N=3),他们的 2 项成绩(特征数 D=2:语文x0​、数学x1​)

学生 1:语文 80,数学 85 → x0​=[80],x1​=[85]

学生 2:语文 85,数学 90 → x0​=[85],x1​=[90]

学生 3:语文 90,数学 95 → x0​=[90],x1​=[95]

支持向量机

我们需要一个决策边界 —— 在这个案例中,它将是一条能够分离两个品种的直线。之后,我们就可以根据新数据落在直线的哪一侧来对其进行分类,这与我们在逻辑回归中所描述的方法类似。需要注意的是,我们可以清楚地看到,用一条直线就能分离这两个品种。能够通过这种方式分离的数据集被称为线性可分数据集。

1.2.1 最大边际

SVM 的核心是找到 “最优决策边界”—— 即位于两条平行分离线正中间的直线,这两条平行分离线需尽可能远离,它们之间的间隙称为 “分离间隔(separating margin)”,SVM 目标是最大化该间隔。间隔最大化的意义:间隔越宽,未见过的测试数据和未来数据落在正确分类侧的概率越高,模型泛化能力越强

决策边界的一个非常合理的选择是:与两个类别都保持最大间隔的那条边界。

我们认为,决策边界的一个非常合理的选择是:与两个类别都保持最大间隔的那条边界。
我们有两个类别
一个正类 y1​,标签为 +1
一个负类 y2​,标签为 -1
权重向量 w 和偏置 b 的构建方式是:线性模型的输出始终大于 1(对应正类)或小于 – 1(对应负类)

为了计算间隔ρ,
我们先计算正类中的点x3​到决策边界的最近距离。
这个距离可以通过将线段对应的向量x3​−x1​投影到方向向量w上来计算:

这意味着,要最大化间隔ρ,我们需要最小化权重向量w的范数。
基于上述分析,我们的任务现在变成:
找到一个带有参数w和b的决策边界,使得
minw,b​21​∥w∥2
满足约束条件:
yi​(wTxi​+b)−1≥0∀ i=1,2,⋯,n

点、直线、平面与超平面

优化问题(Optimization Problem)

Perception 感知机

感知机是一种计算单元,它接收一个数值输入向量x,并通过权重向量w对其进行线性组合,随后可添加一个数值偏置b,得到一个实数结果。

激活函数的作用是判断输入信号的重要性,决定是否抑制该信号或传递其某种形式的输出。

感知机的结构示意图如下:输入向量x=(x1​,x2​,x3​)T与权重向量w=(w1​,w2​,w3​)T进行线性组合,添加可选偏置b后得到结果n,再将n输入激活函数σ:R→R,最终输出y。其数学表达式为:

简洁表达式:y=σ(wTx+b)。

激活函数 activation function – The Heaviside Unit Step function

简单前馈神经网络 A simple feed forward neural net

将输入划分为两类(输出 1 或 0)

四分类问题 Four Classes

据此可将输入分为四类:C1​、C2​、C3​、C4​。
决策边界由以下两个方程确定:x1​−6×2​+1=0(即x2​=(x1​+1)/6)和2×1​+4×2​+2=0(即x2​=−(x1​+1)/2)。
该神经网络通过y的第一个元素判断输入点是否在直线x1​−6×2​+1=0的上方或下方,通过第二个元素判断输入点是否在直线2×1​+4×2​+2=0的上方或下方,进而确定输入点所属的类别。

人工神经网络 Artificial Neural Network

前馈 feeding forward:输入层的输入信号通过重复权重计算、偏置添加和激活处理等步骤在网络中传播,最终在最右侧的输出层得到输出结果

我们需要选择所有权重和偏置,使误差最小化。

代价最小化的常用方法是随机梯度下降(Stochastic Gradient Descent)。

梯度下降概述

-∇f 指示函数 f 下降最快的方向。

通常会绘制代价随轮数的变化曲线。理想情况下,代价应逐渐趋近于 0(或接近 0)。若未出现这种趋势,说明训练效果不佳,需调整超参数

熵 Entropy

交叉熵损失函数是一种常用的替代方案,有时被认为在分类问题中更具优势。

熵是衡量随机变量不确定性或意外程度的指标,熵值越大,不确定性越高。

信息

交叉熵 Cross Entropy

核心作用:替代 TSE(平方误差),作为分类问题的损失函数(衡量模型输出与真实标签的差距)

Softmax

问题:sigmoid 函数只能让输出在 0-1 之间,但无法保证总和为 1(比如 y=(0.13,0.25,0.75,0.31),总和 1.44,不是概率)

通俗理解:分子是 e 的 x_j 次方(放大差异),分母是所有 e 的 x_i 次方和(归一化),最终结果每个元素在 0-1 之间,总和为 1,完美适配交叉熵损失

完整的前向与反向传播算法(含交叉熵)

为了更新权重系数w1 – w6,目的是为了减小损失函数的数值
因此采用梯度下降的方法,计算损失函数与每一个系数的偏导数更新偏导数

学习笔记如有侵权,请提醒我,我会马上删除
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇