分类科研下的文章 - 第 5 页 - 咕咕鸽爱学习

登录

找到 24 篇与科研相关的结果 - 第 5 页

2025-03-21
matlab matlab笔记命令行窗口 clc：清屏（命令行窗口） clear all:把命名的变量删掉，不是命令行窗口命名规则：变量命名以字母开头，不可以下划线，变量是区分字母大小写的脚本 %% xxx 注释（百分号+一个空格） % xxx 也是注释 s='a' '"aaaa",字符串 abs(s) 字符s的ascii码,为97 char(97), 输出'a' numtostr(65) ans='65'，数字转字符串 length(str),字符串的长度矩阵 A=[1 2 3 ;4 5 6 ;7 8 9] 分号换行 B=A‘ ，矩阵转置 C=A(:) ,将矩阵拉成一列，按列存储，第一列拼接第二列拼接第三列 D=inv(A) 求逆矩阵 E=zeros(10,5,3) 生成10行5列3维0矩阵元胞数组 A=cell(1,6)，生成1行6列的小格子，每个小格子可以存放各种数据 eye(3),生成3x3的单位阵 A{2}=eye(3),matlab数组从1开始，不是0

科研

zy123 3月21日
0 3 0
2025-03-21
卡尔曼滤波卡尔曼滤波卡尔曼滤波（Kalman Filter）是一种用于线性动态系统状态估计的递归最优滤波算法，它在噪声环境下对系统状态进行估计，并常用于目标跟踪、导航和控制等领域。卡尔曼滤波假设系统可以用状态空间模型描述，模型包括两个部分：状态转移模型：描述系统状态如何从上一时刻转移到当前时刻。测量模型：描述通过传感器获得的测量值与系统状态之间的关系。这两个模型中均包含随机噪声，分别记为过程噪声和测量噪声。卡尔曼滤波的目标就是在已知这些噪声统计特性的前提下，利用当前和过去的测量值来对系统状态进行最优估计。引入公式状态转移模型设系统的状态向量为 $\mathbf _k$，控制输入为 $\mathbf{u}_k$，过程噪声为 $\mathbf{w}_k$（假设均值为0，协方差矩阵为 $\mathbf{Q}$，维度和状态向量一致），状态转移模型可写为： $$ \mathbf _k = \mathbf{A} \mathbf _{k-1} + \mathbf{B} \mathbf{u}_{k-1} + \mathbf{w}_{k-1} $$ 其中： $\mathbf{A}$ 是状态转移矩阵， $\mathbf{B}$ 是控制输入矩阵。测量模型设测量向量为 $\mathbf{z}_k$，测量噪声为 $\mathbf{v}_k$（假设均值为0，协方差矩阵为 $\mathbf{R}$），测量模型为： $$ \mathbf{z}_k = \mathbf{H} \mathbf _k + \mathbf{v}_k $$ 其中： $\mathbf{H}$ 是测量矩阵。这里是真实状态、真实测量、过程噪声、测量噪声。在卡尔曼滤波的预测和更新阶段中，只需在每个时刻把新测得的 $z_k$ （再加上可用的控制输入 $u_{k-1}$）喂进去，滤波器就会自动递推状态估计。递归过程卡尔曼滤波的递归过程主要分为两大步：预测（Prediction）和更新（Update）。注意：$\hat{\mathbf }_k^-$右上角的'-'符号是区分预测状态和更新后的状态。预测步骤状态预测：利用系统的状态转移模型，将上一次的状态估计 $\hat{\mathbf }{k-1}$ 通过转移矩阵 $\mathbf{A}$（和控制输入 $\mathbf{B} \mathbf{u}{k-1}$）预测到当前时刻的状态： $$ \hat{\mathbf }k^- = \mathbf{A} \hat{\mathbf }{k-1} + \mathbf{B} \mathbf{u}_{k-1} $$ 这里 $\hat{\mathbf }_k^-$ 称为先验状态估计，它反映了系统在没有新测量数据情况下的预期状态。协方差预测：同时，将上一次状态的不确定性（协方差矩阵 $\mathbf{P}_{k-1}$）传播到当前时刻，并加上过程噪声 $\mathbf{Q}$ 的影响： $$ \mathbf{P}k^- = \mathbf{A} \mathbf{P}{k-1} \mathbf{A}^\mathrm{T} + \mathbf{Q} $$ 这个预测协方差反映了预测状态的置信程度，不确定性通常会因过程噪声的加入而增大。更新步骤当时刻 $k$ 新的测量值 $\mathbf{z}_k$ 到达时，我们使用它来校正预测结果。卡尔曼增益的计算：卡尔曼增益 $\mathbf{K}_k$ 衡量了预测的不确定性与测量不确定性之间的权衡。计算公式为： $$ \mathbf{K}_k = \mathbf{P}_k^- \mathbf{H}^\mathrm{T} \left(\mathbf{H} \mathbf{P}_k^- \mathbf{H}^\mathrm{T} + \mathbf{R}\right)^{-1} $$ 当预测的置信度较低（$\mathbf{P}_k^-$较大）时，卡尔曼增益较大，说明更多地信任测量值；反之，则更多地依赖预测值。状态更新：根据卡尔曼增益修正先验状态，将测量的偏差信息（即测量值与预测值之间的差异，也叫创新）加权融合： $$ \hat{\mathbf }_k = \hat{\mathbf }_k^- + \mathbf{K}_k \left(\mathbf{z}_k - \mathbf{H} \hat{\mathbf }_k^- \right) $$ 这个更新后的状态 $\hat{\mathbf }_k$ 就是当前时刻的后验状态估计，它综合了预测和测量两方面的信息。协方差更新：更新后的协方差表示在新的测量信息下的不确定性： $$ \mathbf{P}_k = (\mathbf{I} - \mathbf{K}_k \mathbf{H}) \mathbf{P}_k^- $$ 一般来说，经过更新后，状态的不确定性会降低（即协方差矩阵的数值减小）。疑问：状态转移模型：为什么包含噪声？状态转移模型描述的是系统状态的真实动态行为，它是一个理论模型，表示状态如何从 $\mathbf _{k-1}$ 演化到 $\mathbf k$。由于现实系统存在不确定性（如建模误差、外部扰动等），这些无法精确建模的部分被抽象为**过程噪声 $\mathbf{w}{k-1}$**。因此，模型写作： $$ \mathbf _k = \mathbf{A} \mathbf _{k-1} + \mathbf{B} \mathbf{u}_{k-1} + \mathbf{w}_{k-1} $$ 状态预测：为什么不带噪声？在卡尔曼滤波的预测步骤中，我们计算的是状态的期望值（即最优估计），而非真实状态本身。由于噪声 $\mathbf{w}_{k-1}$ 的均值为零，它在预测时的期望贡献为零： $$ \mathbb{E}[\mathbf _k] = \mathbf{A} \mathbb{E}[\mathbf _{k-1}] + \mathbf{B} \mathbf{u}_{k-1} + \mathbb{E}[\mathbf{w}_{k-1}] = \mathbf{A} \hat{\mathbf }_{k-1} + \mathbf{B} \mathbf{u}_{k-1} $$ 协方差预测：噪声的体现虽然噪声的均值在状态预测中被忽略，但其随机性会导致不确定性累积。因此，协方差预测公式中显式加入了 $\mathbf{Q}$： $$ \mathbf{P}_k^- = \mathbf{A} \mathbf{P}_{k-1} \mathbf{A}^\mathrm{T} + \mathbf{Q} $$ 扩展卡尔曼滤波扩展卡尔曼滤波（Extended Kalman Filter，简称 EKF）是一种针对非线性系统状态估计问题的滤波方法。传统的卡尔曼滤波要求系统的状态转移和观测模型都是线性的，而在实际问题中，很多系统往往存在非线性特性。 EKF 的核心思想就是对非线性模型进行局部线性化，然后在线性化后的模型上直接套用标准卡尔曼滤波（KF）的预测和更新公式。非线性系统模型假设系统的状态转移和观测模型为非线性的：状态转移模型： $$ \mathbf k = f(\mathbf {k-1}, \mathbf{u}{k-1}) + \mathbf{w}{k-1} $$ 观测模型： $$ \mathbf{z}_k = h(\mathbf _k) + \mathbf{v}k $$ 其中，$f(\cdot)$ 和 $h(\cdot)$ 为非线性函数，$\mathbf{w}{k-1}$ 和 $\mathbf{v}_k$ 分别表示过程噪声和测量噪声（均假设为零均值高斯噪声）。线性化为了使用卡尔曼滤波方法，扩展卡尔曼滤波需要对非线性函数进行局部线性化。具体做法是使用泰勒展开在当前状态估计附近进行一阶近似，计算函数的雅可比矩阵：状态转移函数 $f$ 的雅可比矩阵： $$ F_k = \left.\frac{\partial f}{\partial \mathbf }\right|{\mathbf =\hat{\mathbf }{k-1}, \mathbf{u}=\mathbf{u}_{k-1}} $$ 观测函数 $h$ 的雅可比矩阵： $$ H_k = \left.\frac{\partial h}{\partial \mathbf }\right|_{\mathbf =\hat{\mathbf }_k^-} $$ 滤波过程扩展卡尔曼滤波的递归过程与标准卡尔曼滤波类似，但在每一步都需要用雅可比矩阵替换原来的线性模型矩阵：预测步骤：状态预测： $$ \hat{\mathbf }k^- = f(\hat{\mathbf }{k-1}, \mathbf{u}_{k-1}) $$ 协方差预测： $$ \mathbf{P}k^- = F_k \mathbf{P}{k-1} F_k^\mathrm{T} + \mathbf{Q} $$ 这里 $F_k$ 是在 $\hat{\mathbf }_{k-1}$ 处计算得到的雅可比矩阵。更新步骤：计算卡尔曼增益： $$ \mathbf{K}_k = \mathbf{P}_k^- H_k^\mathrm{T} \left(H_k \mathbf{P}_k^- H_k^\mathrm{T} + \mathbf{R}\right)^{-1} $$ 状态更新： $$ \hat{\mathbf }_k = \hat{\mathbf }_k^- + \mathbf{K}_k \left(\mathbf{z}_k - h(\hat{\mathbf }_k^-)\right) $$ 协方差更新： $$ \mathbf{P}_k = (\mathbf{I} - \mathbf{K}_k H_k) \mathbf{P}_k^- $$ 通过这样的线性化步骤，EKF 能够对非线性系统进行状态估计，虽然由于线性化近似可能带来一定误差，但在大多数情况下能达到较好的效果。雅各比矩阵定义雅可比矩阵（Jacobian Matrix）是一个多变量函数各个分量对各个变量的偏导数组成的矩阵。它反映了在某一点处函数的局部线性化近似，也就是该函数在这一点的“导数”信息。在扩展卡尔曼滤波中，为了对非线性状态转移函数 $f(\mathbf , \mathbf{u})$ 或观测函数 $h(\mathbf )$ 进行线性化，我们需要计算它们在当前估计点的雅可比矩阵。示例 1：状态转移函数的雅可比矩阵假设系统的状态为 $\mathbf = \begin{bmatrix} x_1 \ x_2 \end{bmatrix}$（例如，$x_1$ 表示位置，$x_2$ 表示速度），状态转移函数定义为： $$ f(\mathbf ) = \begin{bmatrix} f_1(x_1, x_2) \\ f_2(x_1, x_2) \end{bmatrix} = \begin{bmatrix} x_1 + x_2 + 0.1 x_1^2 \\ x_2 + 0.05 x_1 \end{bmatrix} $$ 这里函数中的非线性项为 $0.1 x_1^2$ 和 $0.05 x_1$。求雅可比矩阵雅可比矩阵 $F$ 是一个 $2 \times 2$ 矩阵，其中每个元素为： $$ F_{ij} = \frac{\partial f_i}{\partial x_j} $$ 计算各个偏导数：对 $f_1(x_1, x_2) = x_1 + x_2 + 0.1 x_1^2$： $\frac{\partial f_1}{\partial x_1} = 1 + 0.2x_1$ $\frac{\partial f_1}{\partial x_2} = 1$ 对 $f_2(x_1, x_2) = x_2 + 0.05 x_1$： $\frac{\partial f_2}{\partial x_1} = 0.05$ $\frac{\partial f_2}{\partial x_2} = 1$ 因此，雅可比矩阵为： $$ F = \begin{bmatrix} 1 + 0.2x_1 & 1 \\ 0.05 & 1 \end{bmatrix} $$ 示例 2：观测函数的雅可比矩阵假设观测函数为： $$ h(\mathbf ) = \begin{bmatrix} h_1(x_1, x_2) \\ h_2(x_1, x_2) \end{bmatrix} = \begin{bmatrix} \sqrt{x_1} \\ x_2 \end{bmatrix} $$ 这里假设传感器对位置进行非线性测量（取平方根），而速度直接测量。求雅可比矩阵计算各个偏导数：对 $h_1(x_1, x_2) = \sqrt{x_1}$： $\frac{\partial h_1}{\partial x_1} = \frac{1}{2\sqrt{x_1}}$ $\frac{\partial h_1}{\partial x_2} = 0$（因为 $h_1$ 与 $x_2$ 无关）对 $h_2(x_1, x_2) = x_2$： $\frac{\partial h_2}{\partial x_1} = 0$ $\frac{\partial h_2}{\partial x_2} = 1$ 因此，雅可比矩阵为： $$ H = \begin{bmatrix} \frac{1}{2\sqrt{x_1}} & 0 \\ 0 & 1 \end{bmatrix} $$ 无迹卡尔曼(UKF) UKF 具体步骤（分步解析）符号含义维度 $ \mathbf $ 系统状态向量 $ n \times 1 $ $ P $ 状态协方差矩阵 $ n \times n $ $ \mathbf{z} $ 观测向量 $ m \times 1 $ $ f(\cdot) $ 非线性状态转移函数 - $ h(\cdot) $ 非线性观测函数 - $ Q $ 过程噪声协方差 $ n \times n $ $ R $ 观测噪声协方差 $ m \times m $ $ \mathcal{X} $ Sigma点集合 $ n \times (2n+1) $ $ W^{(m)} $ 均值权重 $ 1 \times (2n+1) $ $ W^{(c)} $ 协方差权重 $ 1 \times (2n+1) $ $ \alpha, \beta, \kappa $ UKF调参参数（控制Sigma点分布）标量建模： $$x_k = f(x_{k-1}) + w_k$$ $$y_k = h\left(x_k\right) + v_k$$ Step 1: 生成Sigma点（确定性采样）目的：根据当前状态均值和协方差，生成一组代表状态分布的采样点。公式： $$ \begin{aligned} \mathcal{X}_0 &= \hat{\mathbf }_{k-1|k-1} \\ \mathcal{X}_i &= \hat{\mathbf }_{k-1|k-1} + \left( \sqrt{(n+\lambda) P_{k-1|k-1}} \right)_i \quad (i=1,\dots,n) \\ \mathcal{X}_{i+n} &= \hat{\mathbf }_{k-1|k-1} - \left( \sqrt{(n+\lambda) P_{k-1|k-1}} \right)_i \quad (i=1,\dots,n) \end{aligned} $$ **符号说明**： $ \sqrt{(n+\lambda) P} $：协方差矩阵的平方根（如Cholesky分解）。 $ \left( \sqrt{(n+\lambda) P} \right)_i $ 表示平方根矩阵的第 $ i $ 列。 $ \lambda = \alpha^2 (n + \kappa) - n $：缩放因子（$ \alpha $控制分布范围，通常取1e-3；$ \kappa $通常取0）。为什么是 $ 2n+1 $ 个点？1个中心点 + $ 2n $个对称点，覆盖状态空间的主要方向。示例：假设状态 $ \mathbf = [x, y]^T $，$ n = 2 $，$ P = \begin{bmatrix} 4 & 0 \ 0 & 1 \end{bmatrix} $，$ \lambda = 0 $：计算平方根矩阵（Cholesky分解）： $$ \sqrt{(n+\lambda) P} = \sqrt{2} \cdot \begin{bmatrix} 2 & 0 \ 0 & 1 \end{bmatrix} = \begin{bmatrix} 2.828 & 0 \ 0 & 1.414 \end{bmatrix} $$ 生成 Sigma 点： $$ \begin{aligned} \mathcal{X}_0 &= \hat{\mathbf } \ \mathcal{X}_1 &= \hat{\mathbf } + [2.828, 0]^T = [\hat + 2.828, \hat{y}] \ \mathcal{X}_2 &= \hat{\mathbf } + [0, 1.414]^T = [\hat , \hat{y} + 1.414] \ \mathcal{X}_3 &= \hat{\mathbf } - [2.828, 0]^T = [\hat - 2.828, \hat{y}] \ \mathcal{X}_4 &= \hat{\mathbf } - [0, 1.414]^T = [\hat , \hat{y} - 1.414] \ \end{aligned} $$ Step 2: 计算Sigma点权重目的：为每个Sigma点分配权重，用于后续计算均值和协方差。公式： $$ \begin{aligned} W_0^{(m)} &= \frac{\lambda}{n + \lambda} \quad &\text{(中心点均值权重)} \\ W_0^{(c)} &= \frac{\lambda}{n + \lambda} + (1 - \alpha^2 + \beta) \quad &\text{(中心点协方差权重)} \\ W_i^{(m)} = W_i^{(c)} &= \frac{1}{2(n + \lambda)} \quad (i=1,\dots,2n) \quad &\text{(对称点权重)} \end{aligned} $$ **符号说明**： $ \beta $：高阶矩调节参数（高斯分布时取2最优）。权重作用：中心点通常权重较大，对称点权重均等。 Step 3: 预测步骤（时间更新）目的：将Sigma点通过非线性状态方程传播，计算预测状态和协方差。子步骤：传播Sigma点： $$ \mathcal{X}{i,k|k-1}^* = f(\mathcal{X}{i,k-1}, \mathbf{u}_{k-1}), \quad i=0,1,...,2n $$ （每个Sigma点独立通过 $ f(\cdot) $ 计算）计算预测均值和协方差： $$ \hat{\mathbf }{k|k-1} = \sum{i=0}^{2n} W_i^{(m)} \mathcal{X}_{i,k|k-1}^* $$ $$ P_{k|k-1} = \sum_{i=0}^{2n} W_i^{(c)} \left( \mathcal{X}{i,k|k-1}^* - \hat{\mathbf }{k|k-1} \right) \left( \mathcal{X}{i,k|k-1}^* - \hat{\mathbf }{k|k-1} \right)^T + Q_k $$ 符号说明： $\mathcal{X}_{k-1}$：上一时刻生成的Sigma点集合（$2n+1$个点） $\mathcal{X}_{k|k-1}^*$：通过状态方程传播后的Sigma点集合 $ Q_k $：过程噪声（表示模型不确定性）。 Step 4: 观测更新（测量更新）目的：将预测的Sigma点通过观测方程传播，计算卡尔曼增益并更新状态。子步骤：生成观测Sigma点： $$ \mathcal{Z}{i,k|k-1} = h(\mathcal{X}{i,k|k-1}^*), \quad i=0,...,2n $$ 计算观测预测统计量： $$ \hat{\mathbf{z}}{k|k-1} = \sum{i=0}^{2n} W_i^{(m)} \mathcal{Z}_{i,k|k-1} $$ $$ P_{z_k z_k} = \sum_{i=0}^{2n} W_i^{(c)} \left( \mathcal{Z}{i,k|k-1} - \hat{\mathbf{z}}{k|k-1} \right) \left( \mathcal{Z}{i,k|k-1} - \hat{\mathbf{z}}{k|k-1} \right)^T + R_k $$ $$ P_{x_k z_k} = \sum_{i=0}^{2n} W_i^{(c)} \left( \mathcal{X}{i,k|k-1}^* - \hat{\mathbf }{k|k-1} \right) \left( \mathcal{Z}{i,k|k-1} - \hat{\mathbf{z}}{k|k-1} \right)^T $$ 符号说明： $ P_{z_k z_k} $：观测自协方差（含噪声 $ R_k $）。 $ P_{x_k z_k} $：状态-观测互协方差。计算卡尔曼增益和更新状态： $$ K_k = P_{x_k z_k} P_{z_k z_k}^{-1} $$ $$ \hat{\mathbf }{k|k} = \hat{\mathbf }{k|k-1} + K_k (\mathbf{z}k - \hat{\mathbf{z}}{k|k-1}) $$ $$ P_{k|k} = P_{k|k-1} - K_k P_{z_k z_k} K_k^T $$

科研

zy123 3月21日
0 2 0
2025-03-21
数学基础数学基础求解一阶非齐线性微分方程考虑方程 $$ y' + y = x $$ 第一步：求齐次方程的通解先求对应的齐次方程 $$ y' + y = 0 $$ 其解为 $$ y_h = Ce^{-x} $$ 其中 $C$ 为任意常数。第二步：设特解形式利用常数变易法，令特解取形式 $$ y_p = u(x) e^{-x} $$ 其中 $u(x)$ 为待定函数。第三步：求导并代入原方程计算 $y_p$ 的导数： $$ y_p' = u'(x)e^{-x} - u(x)e^{-x} $$ 将 $y_p$ 和 $y_p'$ 代入原方程 $y' + y = x$： $$ \bigl[u'(x)e^{-x} - u(x)e^{-x}\bigr] + u(x)e^{-x} = u'(x)e^{-x} = x $$ 因此有： $$ u'(x) = x e^ $$ 第四步：求 $u(x)$ 对 $u'(x)$ 积分： $$ u(x) = \int x e^ dx $$ 计算积分，可以用分部积分法：令 $$ \begin{cases} u = x, \quad dv = e^x dx,\\[1mm] du = dx, \quad v = e^x, \end{cases} $$ 得： $$ \int x e^x dx = x e^x - \int e^x dx = x e^x - e^x + C_1 = e^x (x-1) + C_1 $$ 注意这里求得的常数 $C_1$可以忽略，因为它会与齐次解合并。故我们取 $$ u(x) = e^x (x-1) $$ 第五步：构造特解并给出通解将 $u(x)$ 带回特解形式： $$ y_p = u(x)e^{-x} = e^x (x-1) e^{-x} = x-1 $$ 因此，原方程的通解为齐次解与特解的和： $$ y = y_h + y_p = Ce^{-x} + (x-1) $$ 梯度下降我们可以用一个简单的线性层作为例子，展示如何利用向量和矩阵计算梯度并更新参数。假设有一个全连接层，其计算公式为 $$ y = W x + b $$ 其中 $x \in \mathbb{R}^2$ 是输入向量 $W \in \mathbb{R}^{2\times2}$ 是权重矩阵 $b \in \mathbb{R}^2$ 是偏置向量 $y \in \mathbb{R}^2$ 是输出向量我们使用均方误差（MSE）作为损失函数，定义为 $$ L = \frac{1}{2} \|y - y_{\text{true}}\|^2 = \frac{1}{2} \sum_{i=1}^{2}(y_i - y_{\text{true}, i})^2 $$ 设定具体数值输入向量： $$ x = \begin{pmatrix} 1 \\ 2 \end{pmatrix} $$ 权重矩阵： $$ W = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} $$ 偏置向量： $$ b = \begin{pmatrix} 1 \\ 1 \end{pmatrix} $$ 真实输出： $$ y_{\text{true}} = \begin{pmatrix} 7 \\ 13 \end{pmatrix} $$ 步骤 1：前向传播计算输出 $y$： $$ y = W x + b = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} \begin{pmatrix} 1 \\ 2 \end{pmatrix} + \begin{pmatrix} 1 \\ 1 \end{pmatrix} $$ 首先计算矩阵乘法： $$ W x = \begin{pmatrix} 1\cdot1 + 2\cdot2 \\ 3\cdot1 + 4\cdot2 \end{pmatrix} = \begin{pmatrix} 1+4 \\ 3+8 \end{pmatrix} = \begin{pmatrix} 5 \\ 11 \end{pmatrix} $$ 再加上偏置 $b$ 得到 $$ y = \begin{pmatrix} 5+1 \\ 11+1 \end{pmatrix} = \begin{pmatrix} 6 \\ 12 \end{pmatrix} $$ 计算损失 $L$： $$ L = \frac{1}{2} \left[(6-7)^2 + (12-13)^2\right] = \frac{1}{2} \left[(-1)^2 + (-1)^2\right] = \frac{1}{2} (1+1) = 1 $$ 步骤 2：反向传播，计算梯度首先，我们定义误差向量为 $$ e = y - y_{\text{true}} = \begin{pmatrix} 6-7 \\ 12-13 \end{pmatrix} = \begin{pmatrix} -1 \\ -1 \end{pmatrix} $$ 由于损失函数 $$ L = \frac{1}{2}\|y - y_{\text{true}}\|^2 $$ 对 $y$ 的偏导数为 $$ \frac{\partial L}{\partial y} = y - y_{\text{true}} = e = \begin{pmatrix} -1 \\ -1 \end{pmatrix} $$ 接下来，我们利用链式法则将梯度传递到 $W$ 和 $b$。 1. 梯度对 $W$ 的求导对于输出层有 $$ y = W x + b $$ 每个元素 $y_i$ 对 $W_{ij}$ 的偏导数为 $$ \frac{\partial y_i}{\partial W_{ij}} = x_j $$ 利用链式法则，损失对 $W_{ij}$ 的梯度为 $$ \frac{\partial L}{\partial W_{ij}} = \frac{\partial L}{\partial y_i} \cdot \frac{\partial y_i}{\partial W_{ij}} = e_i \, x_j $$ 用矩阵形式写就是： $$ \frac{\partial L}{\partial W} = e \cdot x^\top $$ 将数值代入： $$ e = \begin{pmatrix} -1 \\ -1 \end{pmatrix}, \quad x^\top = \begin{pmatrix} 1 & 2 \end{pmatrix} $$ 所以， $$ \frac{\partial L}{\partial W} = \begin{pmatrix} -1 \\ -1 \end{pmatrix} \begin{pmatrix} 1 & 2 \end{pmatrix} = \begin{pmatrix} -1\cdot1 & -1\cdot2 \\ -1\cdot1 & -1\cdot2 \end{pmatrix} = \begin{pmatrix} -1 & -2 \\ -1 & -2 \end{pmatrix} $$ 2.梯度对 $b$ 的求导由于 $y = W x + b$，且对 $b$ 的偏导数为 1， $$ \frac{\partial L}{\partial b} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial b} = e \cdot 1 = e = \begin{pmatrix} -1 \\ -1 \end{pmatrix} $$ 步骤 3：使用梯度下降更新参数设定学习率 $\eta = 0.1$，更新公式为 $$ W_{\text{new}} = W - \eta \frac{\partial L}{\partial W}, \quad b_{\text{new}} = b - \eta \frac{\partial L}{\partial b} $$ 更新 $W$ $$ W_{\text{new}} = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} - 0.1 \cdot \begin{pmatrix} -1 & -2 \\ -1 & -2 \end{pmatrix} = \begin{pmatrix} 1 + 0.1 & 2 + 0.2 \\ 3 + 0.1 & 4 + 0.2 \end{pmatrix} = \begin{pmatrix} 1.1 & 2.2 \\ 3.1 & 4.2 \end{pmatrix} $$ 更新 $b$ $$ b_{\text{new}} = \begin{pmatrix} 1 \\ 1 \end{pmatrix} - 0.1 \cdot \begin{pmatrix} -1 \\ -1 \end{pmatrix} = \begin{pmatrix} 1 + 0.1 \\ 1 + 0.1 \end{pmatrix} = \begin{pmatrix} 1.1 \\ 1.1 \end{pmatrix} $$ 总结在这个例子中，我们展示了如何用向量和矩阵的形式计算一个简单全连接层的前向传播、损失以及对参数 $W$ 和 $b$ 的梯度。关键步骤如下：前向传播：计算 $y = W x + b$ 得到输出，再计算损失 $L = \frac{1}{2}|y - y_{\text{true}}|^2$ 反向传播：计算误差向量 $e = y - y_{\text{true}}$ 利用链式法则得出梯度： $\frac{\partial L}{\partial W} = e \cdot x^\top$ $\frac{\partial L}{\partial b} = e$ 参数更新：通过梯度下降将参数沿负梯度方向调整这样，我们就得到了更新后的参数 $W_{\text{new}}$ 和 $b_{\text{new}}$。这种向量或矩阵形式的梯度计算方法在真实神经网络中是普遍应用的，能够有效处理高维数据和大规模参数。期望、方差、协方差期望 $$ E(X) = \sum_{i} x_i \cdot P(x_i) $$ 其中： $x_i$ 是随机变量$X$ 的取值， $P(x_i)$ 是 $x_i$ 发生的概率。性质线性性： $$ E(aX + bY) = aE(X) + bE(Y) $$ 独立变量： $$ E(XY) = E(X)E(Y) \quad (\text{当}X,Y\text{独立时}) $$ 常数处理： $$ E(c) = c $$ 方差标准差 $$ \sigma =\sqrt{\frac{\textstyle\sum_{i=1}^{n}{( _{i}-\overline )}^{2}}{n}} $$ 方差它是一个标量，表示一个单一随机变量的变动程度。 $$ Var(X)=\mathrm{E}[{(X-\mu) }^{2}]= {\sigma}^{2} $$ 性质 $$ Var(X)=\mathrm{E}({X}^{2})-{[\mathrm{E}(X)]}^{2} \\ Var(kX)={k}^{2}Var(X) $$ 若X和Y是独立的随机变量 $$ Var(X+Y)=Var(X)+Var(Y) $$ 协方差给定两个随机变量 $X$ 和 $Y$，其协方差计算公式为： $$ \text{Cov}(X,Y) = \sum_{i=1}^n (x_i - \mu_X)(y_i - \mu_Y) $$ 其中： $x_i, y_i$ 为观测值 $\mu_X, \mu_Y$ 分别为 $X$ 和 $Y$ 的样本均值直观理解：如果有$X$,$Y$两个变量，$X$增大，$Y$也倾向于增大，$Cov(X,Y)>0$,正相关；$X$增加，$Y$倾向于减小->负相关;否则不相关。推广：概率分布中的协方差 $\text{Cov}(X,Y) =\sum_{i=1}^n {p}{i}( {i}-{\mu }{\mathrm{X}})({\mathcal{y}}{i}-{\mu }_{Y})=E\left[(X-\mu_X)(Y-\mu_Y)\right]$ 性质对称性 $$ \text{Cov}(X, Y) = \text{Cov}(Y, X) $$ 协方差的计算与变量顺序无关线性性 $$ \text{Cov}(aX + b, cY + d) = ac \cdot \text{Cov}(X, Y) $$ 零自协方差 $$ \text{Cov}(X, X) = \text{Var}(X) $$ 分解性 $$ \text{Cov}(X_1 + X_2, Y) = \text{Cov}(X_1, Y) + \text{Cov}(X_2, Y) $$ 标量倍数 $$ \text{Cov}(aX, bY) = ab \cdot \text{Cov}(X, Y) $$ $\text{cov}(AX, AX) = A\text{cov}(X, X)A^T$ 推导： (1) 展开协方差定义 $$ \text{cov}(AX, AX) = \mathbb{E}[(AX - \mathbb{E}[AX])(AX - \mathbb{E}[AX])^T] $$ (2) 线性期望性质 $$ \mathbb{E}[AX] = A\mathbb{E}[X] \\ \Rightarrow AX - \mathbb{E}[AX] = A(X - \mathbb{E}[X]) $$ (3) 代入展开式 $$ = \mathbb{E}[A(X - \mathbb{E}[X])(A(X - \mathbb{E}[X]))^T] \\ = \mathbb{E}[A(X - \mathbb{E}[X])(X - \mathbb{E}[X])^T A^T] $$ (4) 提取常数矩阵 $$ = A \mathbb{E}[(X - \mathbb{E}[X])(X - \mathbb{E}[X])^T] A^T $$ (5) 协方差矩阵表示 $$ = A \text{cov}(X, X) A^T $$ 协方差矩阵对于一个随机向量 $\mathbf{X} = [X_1, X_2, \dots, X_n]^T$，其中 $X_1, X_2, \dots, X_n$ 是 $n$ 个随机变量，协方差矩阵 $\Sigma$ 是一个 $n \times n$ 的矩阵，其元素表示不同随机变量之间的协方差。（注意：每对变量指的是$\mathbf{X}$中任意两个分量之间的组合，如$X_1, X_2$）协方差矩阵的元素是通过计算每对随机变量之间的协方差来获得的。协方差矩阵 $\Sigma$ 的元素可以表示为： $$ \Sigma = \begin{bmatrix} \text{Cov}(X_1, X_1) & \text{Cov}(X_1, X_2) & \dots & \text{Cov}(X_1, X_n) \\ \text{Cov}(X_2, X_1) & \text{Cov}(X_2, X_2) & \dots & \text{Cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(X_n, X_1) & \text{Cov}(X_n, X_2) & \dots & \text{Cov}(X_n, X_n) \\ \end{bmatrix} $$ 其中：对角线上的元素 $\text{Cov}(X_i, X_i)$ 是每个变量的方差，即 $\text{Var}(X_i)$。非对角线上的元素 $\text{Cov}(X_i, X_j)$ 是变量 $X_i$ 和 $X_j$ 之间的协方差。计算举例假设我们有 3 个特征（$n=3$）和 4 个样本（$m=4$），则数据矩阵 $X$ 的构造如下： $$ X = \begin{bmatrix} x_1^{(1)} & x_1^{(2)} & x_1^{(3)} & x_1^{(4)} \\ x_2^{(1)} & x_2^{(2)} & x_2^{(3)} & x_2^{(4)} \\ x_3^{(1)} & x_3^{(2)} & x_3^{(3)} & x_3^{(4)} \end{bmatrix} $$ 假设特征为：第1行 $x_1$：身高（cm）第2行 $x_2$：体重（kg）第3行 $x_3$：年龄（岁）对应4个样本（人）的数据： $$ X = \begin{bmatrix} 170 & 165 & 180 & 155 \\ 65 & 55 & 75 & 50 \\ 30 & 25 & 40 & 20 \end{bmatrix} $$ 中心化数据（每行减去均值）：计算每行均值： $$ \mu_1 = \frac{170+165+180+155}{4} = 167.5, \quad \mu_2 = 61.25, \quad \mu_3 = 28.75 $$ 中心化后的矩阵 $X_c$： $$ X_c = \begin{bmatrix} 2.5 & -2.5 & 12.5 & -12.5 \ 3.75 & -6.25 & 13.75 & -11.25 \ 1.25 & -3.75 & 11.25 & -8.75 \end{bmatrix} $$ 计算协方差矩阵： $$ \text{Cov} = \frac{1}{m} X_c X_c^T = \frac{1}{4} \begin{bmatrix} 2.5 & -2.5 & 12.5 & -12.5 \ 3.75 & -6.25 & 13.75 & -11.25 \ 1.25 & -3.75 & 11.25 & -8.75 \end{bmatrix} \begin{bmatrix} 2.5 & 3.75 & 1.25 \ -2.5 & -6.25 & -3.75 \ 12.5 & 13.75 & 11.25 \ -12.5 & -11.25 & -8.75 \end{bmatrix} $$ 最终结果（对称矩阵）： $$ \text{Cov} \approx \begin{bmatrix} 93.75 & 100.31 & 62.50 \ 100.31 & 120.31 & 75.00 \ 62.50 & 75.00 & 48.44 \end{bmatrix} $$ 对角线是各特征的方差（如身高的方差为93.75）非对角线是协方差（如身高与体重的协方差为100.31）如何生成均值为0，协方差为Q的噪声? 生成标准正态随机变量 $$ \mathbf{Z} \sim \mathcal{N}(0, \mathbf{I}) $$ 进行线性变换 $$ \mathbf{w}_k = \sqrt{\mathbf{Q}} \cdot \mathbf{Z} $$ 其中 $\sqrt{\mathbf{Q}}$ 是 $\mathbf{Q}$ 的矩阵平方根。验证其协方差确实为Q： $$ \begin{aligned} \text{Cov}(\mathbf{w}_k) &= \mathbb{E}[\mathbf{w}_k\mathbf{w}_k^T] \ &= \sqrt{\mathbf{Q}} \cdot \mathbb{E}[\mathbf{Z}\mathbf{Z}^T] \cdot \sqrt{\mathbf{Q}}^T \ &= \sqrt{\mathbf{Q}} \cdot \mathbf{I} \cdot \sqrt{\mathbf{Q}}^T \ &= \mathbf{Q} \end{aligned} $$ Python代码示例 import numpy as np # 定义协方差矩阵 Q = np.array([[0.1, 0.05], [0.05, 0.2]]) # Cholesky分解 L = np.linalg.cholesky(Q) # L @ L.T = Q # 生成标准正态随机数 Z = np.random.randn(2) # 生成目标噪声 w = L @ Z # 等价于 np.dot(L, Z) 概率密度函数定义：概率密度函数是描述连续型随机变量在某个取值点附近的可能性"密度"的函数。注意： PDF在某一点的值不是概率，而是概率的"密度"。实际概率是通过对PDF在某个区间内积分得到的（比如 $P(a \leq X \leq b) = \int_a^b f(x)dx$）。 PDF的全域积分必须等于1（即所有可能性的总和为100%）。例子：假设某人的每日通勤时间 $X$ 是一个连续随机变量，其PDF可能是一个钟形曲线（如正态分布）。PDF在 $x=30$ 分钟处的值 $f(30)$ 表示"30分钟附近"的概率密度，而 $P(25 \leq X \leq 35)=0.4$ 表示约有40%的概率通勤时间会落在这个区间。指数分布定义：指数分布是一种常见的连续型概率分布，通常用于描述"事件间隔时间"或"无记忆性"的过程。比如：客服电话的间隔时间。灯泡的寿命。地震发生的间隔时间。概率密度函数（PDF）：指数分布的PDF公式为： $$ f(x) = \lambda e^{-\lambda x} \quad (x \geq 0) $$ 其中： $\lambda$ 是率参数（单位时间内事件发生的平均次数）。 $1/\lambda$ 是事件的平均间隔时间。无记忆性：已经等待了时间 $t$，再等待额外时间 $s$ 的概率与从头开始等待 $s$ 的概率相同（即 $P(X > t+s \mid X > t) = P(X > s)$）。例子：假设某网站用户访问的间隔时间服从 $\lambda = 0.5$（平均每2分钟1次访问），则： PDF为 $f(x) = 0.5 e^{-0.5x}$。用户在接下来1分钟内访问的概率是 $P(0 \leq X \leq 1) = \int_0^1 0.5 e^{-0.5x} dx \approx 0.393$。高斯分布高斯分布的概率密度函数： $$ \mathcal{f}(\mathcal )=\frac{1}{\sqrt{2\pi }\sigma }\exp \begin{pmatrix}-\frac{{(x-u)}^{2}}{2{\sigma }^{2}} \end{pmatrix} $$ x 在 μ-σ 和 μ+σ 之间的样本数量占到整个样本数量的 68.2%； x 在 μ-2σ 和 μ+2σ 之间的样本数量占到整个样本数量的 95.4%； x 在 μ-3σ 和 μ+3σ 之间的样本数量占到整个样本数量的99.6%；数据融合当前最优值=当前的先验估计值和观测值进行融合我们通常会尝试最小化方差，以尽可能减小状态估计的不确定性，从而获得更可靠和准确的估计结果拉普拉斯变换拉普拉斯变换的定义对于一个给定的时间域函数 ( f(t) )，其拉普拉斯变换 ( F(s) ) 定义为： $$ F(s) = \int_{0}^{\infty} e^{-st}f(t) \, dt $$ 这里的 ( s ) 是一个复数，通常写作 $ s = \sigma + j\omega $，其中 $\sigma$ 和 $ \omega $ 分别是实部和虚部。拉普拉斯变换的作用简化微分方程：拉普拉斯变换可以将微分方程转换为代数方程，从而简化求解过程。系统分析：在控制理论中，拉普拉斯变换用来分析系统的稳定性和频率响应。信号处理：在信号处理中，拉普拉斯变换帮助分析信号的频谱和系统的滤波特性。例子：单一指数函数的拉普拉斯变换假设有一个函数 $f(t) = e^{-at} $（其中 ( a ) 是一个正常数），我们想计算它的拉普拉斯变换。根据拉普拉斯变换的定义： $$ F(s) = \int_{0}^{\infty} e^{-st}e^{-at} \, dt = \int_{0}^{\infty} e^{-(s+a)t} \, dt $$ 这个积分可以解为： $$ F(s) = \begin{bmatrix} \frac{e^{-(s+a)t}}{-(s+a)} \end{bmatrix}_{0}^{\infty} = \frac{1}{s+a} $$ 因为当 $ t \to \infty $ 时，$ e^{-(s+a)t} $ 趋向于 0，前提是 $ Re(s+a) > 0 $（即 $s $ 的实部加 $ a $ 必须是正的）。拉普拉斯矩阵拉普拉斯矩阵及其性质对于一个无向图 $G = (V, E)$，其拉普拉斯矩阵 $L$ 通常定义为 $$ L = D - A, $$ 其中： $D$是度矩阵，一个对角矩阵，其对角元 ($d_i$) 为顶点 $i$ 的度数； $A$是邻接矩阵，反映了图中各顶点之间的连接关系。示例：考虑一个简单的无向图，该图包含三个顶点：1, 2, 3，以及两条边： - 边 (1, 2) - 边 (2, 3) 邻接矩阵 (A) $$ A = \begin{pmatrix} 0 & 1 & 0 \\ 1 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix}. $$ 度矩阵 (D) $$ D = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 1 \end{pmatrix}. $$ 拉普拉斯矩阵 (L) 将上面两个矩阵相减得到 $$ L = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 1 \end{pmatrix} - \begin{pmatrix} 0 & 1 & 0 \\ 1 & 0 & 1 \\ 0 & 1 & 0 \end{pmatrix} = \begin{pmatrix} 1 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 1 \end{pmatrix}. $$ 令常数向量 $$ \mathbf{1} = \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}, $$ 则有 $$ L\mathbf{1} = \begin{pmatrix} 1 \cdot 1 + (-1) \cdot 1 + 0 \cdot 1 \\ -1 \cdot 1 + 2 \cdot 1 + (-1) \cdot 1 \\ 0 \cdot 1 + (-1) \cdot 1 + 1 \cdot 1 \end{pmatrix} = \begin{pmatrix} 1 - 1 + 0 \\ -1 + 2 - 1 \\ 0 - 1 + 1 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}. $$ 这说明常数向量 $\mathbf{1}$ 是 $L$ 的零空间中的一个向量，即零特征值对应的特征向量。主要性质对称性由于对于无向图，邻接矩阵 (A) 是对称的，而度矩阵 (D) 本身也是对称的（因为它是对角矩阵），所以拉普拉斯矩阵 $L$ 也是对称矩阵。正半定性对于任意实向量 $x$，都有： $$ x^T L x = \sum_{(i,j) \in E} (x_i - x_j)^2 \ge 0. $$ 这说明 $L$ 是正半定矩阵，即其所有特征值均非负。零特征值与连通分量对于任意图，都有 $$ L \mathbf{1} = \mathbf{0}, $$ 其中 $\mathbf{1} = (1, 1, \ldots, 1)^T$，因此 $0$ 一定是 $L$ 的一个特征值。因为拉普拉斯矩阵的定义为 $L = D - A$，其中每一行的元素之和为零，所以当向量所有分量都相等时，每一行的加权求和自然等于零。更进一步，零特征值的重数等于图的连通分量(独立的子图)个数。也就是说，如果图 $G$ 有 $k$ 个连通分量，则 $L$ 的零特征值重数为 $k$ 。简单证明思路考虑图中每个连通分量，对于某个连通分量内的所有顶点，可以构造一个特征向量，使得在该连通分量中所有分量取相同常数，而在其他部分取零。由于该连通分量内部的任意两个顶点都是连通的，该特征向量满足 $Lx = 0$。这样，对于每个连通分量都可以构造出一个线性无关的零特征值特征向量，从而零特征值的重数至少为连通分量的数量；进一步证明可以证明重数不会超过这个数量。谱分解及应用由于 $L$ 是对称正半定矩阵，其可以进行谱分解： $$ L = U \Lambda U^T, $$ 其中$U$ 是**正交矩阵**，$\Lambda$ 是包含 $L$ 所有非负特征值的**对角矩阵**。这一性质使得拉普拉斯矩阵在谱聚类、图分割等应用中非常有用。总结拉普拉斯矩阵 $L = D - A$是描述图结构的重要工具，具有如下主要性质：对称性：$L$是对称矩阵；正半定性：任意向量 $x$ 有 $x^T L x \ge 0$；零特征值：$L$ 总有零特征值，且其重数与图的连通分量个数相等；谱分解：$L$ 可进行正交谱分解，广泛应用于图的聚类与分割等领域。这些性质不仅在理论上非常重要，而且在图论和数据分析等实际问题中有广泛的应用。平均拉普拉斯矩阵：归一化拉普拉斯矩阵为了在某些应用中（例如谱聚类、图卷积网络等）获得更好的数值性质和归一化效果，我们可以构造对称归一化拉普拉斯矩阵，记为 $L_{sym}$，定义为 $$ L_{sym} = D^{-1/2} L D^{-1/2} = I - D^{-1/2} A D^{-1/2}, $$ 其中 $D^{-1/2}$ 表示度矩阵的逆平方根， $I$ 为单位矩阵。 $$ D = \begin{pmatrix} 4 & 0 & 0 \\ 0 & 9 & 0 \\ 0 & 0 & 16 \end{pmatrix}. D^{-1/2} = \begin{pmatrix} \frac{1}{2} & 0 & 0 \ 0 & \frac{1}{3} & 0 \ 0 & 0 & \frac{1}{4} \end{pmatrix}. $$ 主要特点归一化：通过 $D^{-1/2}$ 的两侧预处理，将不同顶点的度数影响消除，使得矩阵在谱分解时能更好地反映图的结构。对称性： $L_{sym}$ 是对称矩阵，这意味着它可以进行正交谱分解，其特征值均为实数。谱性质： $L_{sym}$ 的特征值都位于区间 $[0, 2]$ 内。这一性质对于很多图论算法的稳定性和收敛性分析都非常重要。 Fiedler向量根据谱分解理论，$L$ 的特征值满足 $$ x 0 = \lambda_1 \le \lambda_2 \le \cdots \le \lambda_n. $$ 其中，$\lambda_1 = 0$ 对应的特征向量通常为所有分量相同的常数向量。而 **Fiedler 向量** 就是对应于 $\lambda_2$ (第二小的特征值)的特征向量。图的谱划分构建图的拉普拉斯矩阵根据给定的图结构,构建图的拉普拉斯矩阵 $L$。计算 Fiedler 向量求解拉普拉斯矩阵 $L$ 的第二小特征值对应的特征向量,即 Fiedler 向量。根据 Fiedler 向量进行图划分将 Fiedler 向量的元素按大小排序。找到 Fiedler 向量元素值为 0 附近的分界点,将图划分为两个子图。 Fiedler 向量在连接紧密的顶点上的取值往往比较接近 $$ Fiedler 向量 :xv = \begin{pmatrix}0.8 \\0.7 \\0.6 \\-0.5 \\-0.6 \\-0.7\end{pmatrix}. $$ 正值部分：对应顶点 1, 2, 3；负值部分：对应顶点 4, 5, 6。经过这种划分后，通常会发现：子图内部：顶点之间的连接较为紧密（边较多），子图之间：连接较弱（边较少或只有一两条边）。递归划分子图（可选）对划分得到的两个子图,分别递归应用上述步骤(1-3步),进一步将其划分为更小的子图。这样可以将原图层层划分为多个子图。确定最终聚类结果根据上述划分过程得到的多个子图,就对应了图的最终聚类结果。每个子图内的节点被认为属于同一个聚类。谱聚类谱聚类的基本思想是通过图的特征向量将数据点映射到低维空间中，然后在这个低维空间中使用传统的聚类技术。 1.构造相似性图数据表示：给定数据点 ${x_1, x_2, \ldots, x_n}$。相似性矩阵 $W$：根据数据点之间的距离或相似性构造矩阵 $W$。常见方法包括： Gaussian 核函数： $$ W_{ij} = \exp\Bigl(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\Bigr), $$ 只有当 $x_i$ 与 $x_j$ 彼此接近时， $W_{ij}$ 才较大；衡量数据点之间的距离并将其映射为一个 [0, 1] 之间的相似性值。其中 $\sigma$ 为尺度参数，当 $\sigma$ 较小时，只有非常接近的数据点才会被认为是相似的 K近邻图：仅连接每个点与其 $k$ 个最近邻之间的边，其余 $W_{ij} = 0$。 2.构造图拉普拉斯矩阵 - 对称归一化拉普拉斯矩阵 - 未归一化的拉普拉斯矩阵 3.计算特征向量对选定的拉普拉斯矩阵（例如 $L_{sym}$）进行特征分解，求出前 $k$ 个最小特征值对应的特征向量。注意：对于未归一化的拉普拉斯矩阵，零特征值对应的特征向量通常是常数向量，所以在分解时忽略这个解，选择第二小开始的 $k$ 个特征向量。 4.构造嵌入空间形成矩阵 $U$：将求得的 $k$ 个特征向量作为列组成矩阵 $$ U = \begin{pmatrix} u_1(1) & u_2(1) & \cdots & u_k(1) \\ u_1(2) & u_2(2) & \cdots & u_k(2) \\ \vdots & \vdots & \ddots & \vdots \\ u_1(n) & u_2(n) & \cdots & u_k(n) \end{pmatrix}. $$ 其中，每一行对应原数据点在低维空间中的表示。归一化（可选）：对于对称归一化的情况，可以对 $U$ 的每一行做归一化处理，使得每一行变为单位向量，这一步有助于后续聚类的稳定性。 5.聚类使用 k-means 等传统聚类算法：在低维嵌入空间中，每一行表示一个数据点的低维表示，然后对这些点进行聚类。得到每个数据点对应的簇标签。谱聚类示例（6个数据点分成3类）假设数据点为 $$ x_1=1,\quad x_2=2,\quad x_3=5,\quad x_4=6,\quad x_5=10,\quad x_6=11. $$ 直观上我们希望将它们分为3类：类1：靠近 1、2 类2：靠近 5、6 类3：靠近 10、11 1. 构造相似性矩阵 $W$ 采用 Gaussian 核函数 $$ W_{ij}=\exp\Bigl(-\frac{(x_i-x_j)^2}{2\sigma^2}\Bigr). $$ 取 $\sigma=2$（参数可调），则分母为 $2\sigma^2=8$。计算部分相似性（近似值）： $x_1,x_2: ; |1-2|^2=1,\quad W_{12}=\exp(-1/8)\approx0.8825.$ $x_1,x_3: ; |1-5|^2=16,\quad W_{13}=\exp(-16/8)=\exp(-2)\approx0.1353.$ $x_1,x_4: ; |1-6|^2=25,\quad W_{14}=\exp(-25/8)\approx0.0439.$ $x_1,x_5: ; |1-10|^2=81,\quad W_{15}=\exp(-81/8)\approx0.00004.$ $x_1,x_6: ; |1-11|^2=100,\quad W_{16}=\exp(-100/8)\approx0.00001.$ $x_2,x_3: ; |2-5|^2=9,\quad W_{23}=\exp(-9/8)\approx0.3247.$ $x_2,x_4: ; |2-6|^2=16,\quad W_{24}=\exp(-16/8)=\exp(-2)\approx0.1353.$ $x_2,x_5: ; |2-10|^2=64,\quad W_{25}=\exp(-64/8)=\exp(-8)\approx0.000335.$ $x_2,x_6: ; |2-11|^2=81,\quad W_{26}=\exp(-81/8)\approx0.00004.$ $x_3,x_4: ; |5-6|^2=1,\quad W_{34}=\exp(-1/8)\approx0.8825.$ $x_3,x_5: ; |5-10|^2=25,\quad W_{35}=\exp(-25/8)\approx0.0439.$ $x_3,x_6: ; |5-11|^2=36,\quad W_{36}=\exp(-36/8)=\exp(-4.5)\approx0.0111.$ $x_4,x_5: ; |6-10|^2=16,\quad W_{45}=\exp(-16/8)=\exp(-2)\approx0.1353.$ $x_4,x_6: ; |6-11|^2=25,\quad W_{46}=\exp(-25/8)\approx0.0439.$ $x_5,x_6: ; |10-11|^2=1,\quad W_{56}=\exp(-1/8)\approx0.8825.$ 由于 $W$ 是对称矩阵，对角元一般取 0（或1，根据需求），我们构造相似性矩阵 $W$ 为 $$ W=\begin{pmatrix} 0 & 0.8825 & 0.1353 & 0.0439 & 0.00004 & 0.00001 \\ 0.8825 & 0 & 0.3247 & 0.1353 & 0.000335& 0.00004 \\ 0.1353 & 0.3247 & 0 & 0.8825 & 0.0439 & 0.0111 \\ 0.0439 & 0.1353 & 0.8825 & 0 & 0.1353 & 0.0439 \\ 0.00004& 0.000335&0.0439 & 0.1353 & 0 & 0.8825 \\ 0.00001& 0.00004 & 0.0111 & 0.0439 & 0.8825 & 0 \end{pmatrix}. $$ 构造度矩阵 $D$ $$ D_{ii}=\sum_{j=1}^6 W_{ij}. $$ 近似计算：对于 $x_1$： $D_{11}\approx0.8825+0.1353+0.0439+0.00004+0.00001\approx1.0617.$ 对于 $x_2$： $D_{22}\approx0.8825+0.3247+0.1353+0.000335+0.00004\approx1.3429.$ 对于 $x_3$： $D_{33}\approx0.1353+0.3247+0.8825+0.0439+0.0111\approx1.3975.$ 对于 $x_4$： $D_{44}\approx0.0439+0.1353+0.8825+0.1353+0.0439\approx1.241.$ 对于 $x_5$： $D_{55}\approx0.00004+0.000335+0.0439+0.1353+0.8825\approx1.0617.$ 对于 $x_6$： $D_{66}\approx0.00001+0.00004+0.0111+0.0439+0.8825\approx0.9375.$ 构造度矩阵： $$ D=\begin{pmatrix} 1.0617 & 0 & 0 & 0 & 0 & 0\\[0.5em] 0 & 1.3429 & 0 & 0 & 0 & 0\\[0.5em] 0 & 0 & 1.3975 & 0 & 0 & 0\\[0.5em] 0 & 0 & 0 & 1.2410 & 0 & 0\\[0.5em] 0 & 0 & 0 & 0 & 1.0617 & 0\\[0.5em] 0 & 0 & 0 & 0 & 0 & 0.9375 \end{pmatrix}. $$ 3. 构造拉普拉斯矩阵 $L$ 未归一化拉普拉斯矩阵定义为 $$ L = D - W. $$ 例如，矩阵的第 1 行为： $$ L_{1\cdot}=(1.0617,\ -0.8825,\ -0.1353,\ -0.0439,\ -0.00004,\ -0.00001), $$ 其它行类似。 4. 特征分解与构造低维嵌入为了分成 3 类，通常我们取图拉普拉斯矩阵（或归一化拉普拉斯矩阵）的前 $k=3$ 个最小特征值对应的特征向量。（注意：对于未归一化拉普拉斯矩阵，第一个特征值为 0，对应常数向量；但在归一化方法中，所有 3 个特征向量通常都有实际意义。）假设经过特征分解后，我们得到了三个特征向量 $$ u_1,\; u_2,\; u_3, $$ 每个都是 6 维向量。将它们按列排列构成矩阵 $$ U=\begin{pmatrix} u_1(1) & u_2(1) & u_3(1) \\[0.3em] u_1(2) & u_2(2) & u_3(2) \\[0.3em] u_1(3) & u_2(3) & u_3(3) \\[0.3em] u_1(4) & u_2(4) & u_3(4) \\[0.3em] u_1(5) & u_2(5) & u_3(5) \\[0.3em] u_1(6) & u_2(6) & u_3(6) \end{pmatrix}. $$ 每一行 $i$ 表示数据点 $x_i$ 在 3 维低维嵌入空间中的表示。假设得到的低维表示（示例数值）： $x_1: ; (0.9,\ 0.2,\ 0.1)$ $x_2: ; (0.8,\ 0.3,\ 0.2)$ $x_3: ; (-0.1,\ 0.8,\ 0.1)$ $x_4: ; (-0.2,\ 0.7,\ 0.0)$ $x_5: ; (0.1,\ -0.2,\ 0.9)$ $x_6: ; (0.0,\ -0.1,\ 1.0)$ 5. 在低维空间上使用 k-means 聚类利用 k-means 算法对 6 个数据点的 3 维向量进行聚类。在本例中，k-means 会尝试将点分为 3 类。根据上述低维表示，很容易看到：数据点 $x_1$ 和 $x_2$ 聚在一起；数据点 $x_3$ 和 $x_4$ 聚在一起；数据点 $x_5$ 和 $x_6$ 聚在一起。最终得到的聚类结果：类1：${x_1, x_2}$ 类2：${x_3, x_4}$ 类3：${x_5, x_6}$ 幂迭代幂迭代方法是一种常用的数值迭代算法，主要用于计算矩阵的主特征值（即具有最大模长的特征值）及其对应的特征向量。收敛原理在多数实际问题中，矩阵的特征值中存在一个绝对值最大的特征值。根据线性代数理论：任取一个非零初始向量（且在主特征向量方向上的分量不为0）通过不断与矩阵相乘并归一化，该向量会逐渐趋近于主特征向量方向其他较小特征值对应的分量会被逐渐"削弱" 算法步骤选取初始向量选择非零初始向量 $$x^{(0)}$$ 迭代更新每次迭代计算： $$ x^{(k+1)} = A x^{(k)} $$ 并进行二范数归一化以保持数值稳定性收敛判断当相邻迭代向量足够接近时停止，此时：归一化向量 ≈ 主特征向量特征值估计（瑞利商（Rayleigh Quotient））： $$ \lambda^{(k)} = \frac{(x^{(k)})^T A x^{(k)}}{(x^{(k)})^T x^{(k)}} $$ 瑞利商（Rayleigh Quotient）推导：假设 $x$ 是 $A$ 的一个近似特征向量（比如幂迭代法得到的 $x^{(k)}$），我们希望找到一个标量 $\lambda$ 使得 $A x \approx \lambda x$。为了找到最优的 $\lambda$，可以最小化残差 $| A x - \lambda x |^2$： $$ \| A x - \lambda x \|^2 = (A x - \lambda x)^T (A x - \lambda x) $$ 展开后： $$ = x^T A^T A x - 2 \lambda x^T A x + \lambda^2 x^T x $$ 对 $\lambda$ 求导并令导数为零： $$ \frac{d}{d\lambda} \| A x - \lambda x \|^2 = -2 x^T A x + 2 \lambda x^T x = 0 $$ 解得： $$ \lambda = \frac{x^T A x}{x^T x} $$ 这就是 **瑞利商** 的表达式： $$ \lambda^{(k)} = \frac{(x^{(k)})^T A x^{(k)}}{(x^{(k)})^T x^{(k)}} $$

科研

zy123 3月21日
0 8 0
2025-03-21
循环神经网络循环神经网络RNN 循环神经网络（Recurrent Neural Network，简称RNN）是一类专门用于处理序列数据的神经网络模型。与传统的前馈神经网络不同，RNN具有“记忆”功能，能够捕捉数据序列中的时间依赖关系。基本结构 RNN的核心在于它的循环结构，这个结构使得信息可以沿着时间步流动。一个典型的RNN单元在时间步 $t$ 接收输入向量 $x_t$ 和前一时刻的隐藏状态 $h_{t-1}$，然后计算当前时刻的隐藏状态 $h_t$。这种循环过程允许模型利用之前的状态信息来影响当前的预测。隐藏状态的更新隐藏状态更新通常通过如下公式实现： $$ h_t = f(W_{xh} \cdot x_t + W_{hh} \cdot h_{t-1} + b_h) $$ 其中： $h_t$ 表示时间步 $t$ 的隐藏状态（所有隐藏层神经元激活值的集合。）。 $x_t$ 是时间步 $t$ 的输入向量。 $W_{xh}$ 是输入到隐藏状态的权重矩阵。 $W_{hh}$ 是隐藏状态之间的递归连接权重矩阵。 $b_h$ 是偏置项。 $f$ 是激活函数，通常会选择非线性函数如tanh或ReLU，以引入非线性变换。在这种更新过程中，当前的隐藏状态 $h_t$ 同时依赖于当前的输入 $x_t$ 和之前的隐藏状态 $h_{t-1}$，这使得RNN能够捕捉长时间序列中的上下文关系。输出层有时RNN还会在每个时间步产生输出，输出计算方式通常为： $$ y_t = g(W_{hy} \cdot h_t + b_y) $$ 其中： $y_t$ 是时间步 $t$ 的输出。 $W_{hy}$ 是隐藏状态到输出的权重矩阵。 $b_y$ 是输出层的偏置项。 $g$ 是输出层激活函数（例如softmax用于分类任务）。困惑度假设我们有一个测试序列，其中包含 3 个单词，模型对每个单词的预测概率分别为： $P(w_1) = 0.5$ $P(w_2|w_1) = 0.2$ $P(w_3|w_1, w_2) = 0.1$ 根据困惑度的公式： $$ \text{Perplexity} = \exp\left(-\frac{1}{N} \sum_{i=1}^{N} \log P(w_i | \text{context})\right) $$ 当模型对每个单词都能百分之百预测（即概率为1），则平均交叉熵为0，困惑度为 $\exp(0)=1$。这表示模型没有任何不确定性，是理想状态。我们这里 $N=3$。下面是具体的计算步骤：计算每个单词的对数概率 $$ \log P(w_1) = \log(0.5) \approx -0.6931 $$ $$ \log P(w_2|w_1) = \log(0.2) \approx -1.6094 $$ $$ \log P(w_3|w_1, w_2) = \log(0.1) \approx -2.3026 $$ 求和并求平均将这些对数值相加： $$ \sum_{i=1}^{3} \log P(w_i|\text{context}) = -0.6931 - 1.6094 - 2.3026 \approx -4.6051 $$ 然后求平均： $$ \text{平均对数概率} = \frac{-4.6051}{3} \approx -1.5350 $$ 计算困惑度取负值再求指数： $$ \text{Perplexity} = \exp\left(1.5350\right) \approx 4.64 $$ 训练过程与挑战整体训练流程可以总结为下面几个步骤，每个 epoch 都会重复这些步骤：前向传播对于一个完整的句子（或者一个批次中的多个句子），模型按顺序处理所有时间步，生成每个时间步的输出。比如，对于句子“我爱编程”，模型会依次处理“我”、“爱”、“编程”，得到对应的输出（例如每个时间步预测下一个词的概率分布）。计算损失将模型在所有时间步的输出与真实目标序列（也就是每个时间步的正确答案）进行比较，计算整体损失。损失通常是所有时间步损失的总和或平均值，例如均方误差或交叉熵损失。反向传播（BPTT）对整个句子进行反向传播，即通过时间（Back Propagation Through Time，BPTT）计算所有时间步的梯度。这一步会利用链式法则，把整个序列中各个时间步的梯度累积起来，形成每个参数的总梯度。参数更新使用优化器（如 Adam、SGD 等）根据计算得到的梯度更新模型参数。重复整个过程以上步骤构成了一个训练迭代周期（一个 epoch），在一个 epoch 中，所有训练样本都会被送入模型进行训练。然后在下一个 epoch 中，再次重复整个流程，直到达到预设的 epoch 数或满足其他停止条件。在训练过程中，RNN通过反向传播算法（具体为“反向传播通过时间”（BPTT））来更新参数。然而，由于梯度在长序列上传播时可能出现梯度消失或梯度爆炸问题，使得RNN在捕捉长程依赖关系时面临挑战。为此，后来发展出了如长短时记忆网络（LSTM）和门控循环单元（GRU）等改进模型，它们在结构上增加了门控机制，有效缓解了这一问题。门控循环单元GRU GRU（Gated Recurrent Unit，门控循环单元）是一种常用的循环神经网络变种，旨在解决标准 RNN 中梯度消失或梯度爆炸的问题，同时比 LSTM 结构更简单。基本结构 GRU 通过两个门（gate）来控制信息的流动：更新门 $z_t$：控制当前隐藏状态需要保留多少来自过去的信息以及引入多少新的信息。重置门 $r_t$：决定如何结合新输入和过去的记忆，尤其是在产生候选隐藏状态时。另外，GRU 计算一个候选隐藏状态 $\tilde{h}_t$，并结合更新门 $z_t$ 的信息，更新最终的隐藏状态 $h_t$。隐藏状态更新公式对于每个时间步 $t$，GRU 的计算过程通常包括以下步骤：更新门 $z_t$ $$ z_t = \sigma(W_{xz} x_t + W_{hz} h_{t-1} + b_z) $$ 其中： $x_t$ 是当前时间步的输入； $h_{t-1}$ 是上一时刻的隐藏状态； $b_z$ 是偏置向量； $\sigma(\cdot)$ 是 sigmoid 函数，用于将输出限制在 $[0, 1]$ 区间。重置门 $r_t$ $$ r_t = \sigma(W_{xr} x_t + W_{hr} h_{t-1} + b_r) $$ 其中参数意义与更新门类似，重置门决定忘记多少过去的信息。候选隐藏状态 $\tilde{h}_t$ $$ \tilde{h}t = \tanh(W{xh} x_t + W_{hh} (r_t \odot h_{t-1}) + b_h) $$ 这里： $r_t \odot h_{t-1}$ 表示重置门 $r_t$ 和上一时刻隐藏状态的逐元素相乘（Hadamard 乘积），用以调制历史信息的影响； $\tanh(\cdot)$ 激活函数，用来生成候选隐藏状态，将输出限制在 $[-1, 1]$。最终隐藏状态 $h_t$ GRU 结合更新门和候选隐藏状态更新最终隐藏状态： $$ h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t. $$ 这表明更新门 $z_t$ 决定了新信息 $\tilde{h}t$ 与旧信息 $h{t-1}$ 的比例。公式 GRU 更新公式如下： $$ \begin{aligned} z_t &= \sigma(W_{xz} x_t + W_{hz} h_{t-1} + b_z), \\ r_t &= \sigma(W_{xr} x_t + W_{hr} h_{t-1} + b_r), \\ \tilde{h}_t &= \tanh(W_{xh} x_t + W_{hh}(r_t \odot h_{t-1}) + b_h), \\ h_t &= (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t. \end{aligned} $$ 长短时记忆网络LSTM LSTM 是一种常用的循环神经网络变种，专门为解决标准 RNN 中的梯度消失问题而设计。它通过引入额外的“记忆单元”和多个门控机制，有效地控制信息的保存、遗忘和输出，从而捕捉长距离的依赖关系。基本结构 LSTM 的核心在于其“细胞状态”（cell state），这是一个贯穿整个序列传递的信息流，同时有三个主要的门（gate）来控制细胞状态的更新过程：遗忘门 $f_t$ 决定当前时间步需要遗忘多少之前的记忆信息。输入门 $i_t$ 决定当前时间步有多少新的信息写入细胞状态。输出门 $o_t$ 决定当前时间步从细胞状态中输出多少信息作为隐藏状态。此外，还引入了一个候选细胞状态 $\tilde{c}_t$ 用于更新细胞状态。隐藏状态更新公式对于每个时间步 $t$，LSTM 的更新过程通常可以写为以下公式（所有权重矩阵用 $W$ 和 $U$ 表示，各门的偏置为 $b$）： $$ \begin{aligned} \textbf{遗忘门:} \quad f_t = \sigma\Big(W_{xf}\, x_t + W_{hf}\, h_{t-1} + b_f\Big) \\ \textbf{输入门:} \quad i_t = \sigma\Big(W_{xi}\, x_t + W_{hi}\, h_{t-1} + b_i\Big) \\ \textbf{输出门:} \quad o_t = \sigma\Big(W_{xo}\, x_t + W_{ho}\, h_{t-1} + b_o\Big) \\\\ \textbf{候选细胞状态:} \quad \tilde{c}_t = \tanh\Big(W_{xc}\, x_t + W_{hc}\, h_{t-1} + b_c\Big) \\ \textbf{细胞状态更新:} \quad c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t \\ \textbf{隐藏状态:} \quad h_t = o_t \odot \tanh(c_t) \end{aligned} $$ 连续传递在时间步 $t$ 中计算出的隐藏状态 $h_t$ 会作为下一时间步 $t+1$ 的输入之一，与当前输入 $x_{t+1}$ 一起用于后续计算。这样，每个 $h_t$ 都包含了前面所有时间步的信息，从而实现信息的传递和累积。最终输出预测如果任务是做序列到单个输出（例如分类、回归等），通常最后一个时间步（即 $h_T$）会用作整个序列的表示，并作为最终的特征传递给预测层（如全连接层）进行输出预测。但需要注意的是，在一些任务中，比如序列标注或序列生成，每个时间步的隐藏状态都可能参与输出预测或进一步处理。直观理解细胞状态 $c_t$：细胞状态是贯穿整个序列的“记忆通道”，负责长期保存信息。它像一条传送带，在不同时间步中线性传递，避免信息被频繁修改，从而维持长期记忆。隐藏状态$h_t$：代表的是当前时间步的输出或者说是短时记忆。它是基于当前输入以及细胞状态经过非线性激活处理后的结果，反映了对当前时刻输入信息的即时响应。遗忘门 $f_t$：用于丢弃上一时刻不再需要的信息。如果遗忘门输出接近 0，说明遗忘了大部分过去的信息；如果接近 1，则保留大部分信息。类比：若模型遇到新段落，遗忘门可能关闭（输出接近0），丢弃前一段的无关信息；若需要延续上下文（如故事主线），则保持开启（输出接近1）。输入门 $i_t$ 和候选细胞状态 $\tilde{c}_t$：输入门控制有多少候选信息被写入细胞状态。候选细胞状态是基于当前输入和上一时刻隐藏状态生成的新信息。类比：阅读时遇到关键情节，输入门打开，将新信息写入长期记忆（如角色关系），同时候选状态 $\tilde{c}_t$提供新信息的候选内容。输出门 $o_t$：控制从细胞状态中输出多少信息作为当前时间步的隐藏状态。隐藏状态 $h_t$ 通常用于后续计算（例如，生成输出、参与下一时刻计算）。类比：根据当前任务（如预测下一个词），输出门决定暴露细胞状态的哪部分（如只关注时间、地点等关键信息）。双层或多层LSTM 双层 LSTM 是指将两个 LSTM 层堆叠在一起：第一层 LSTM 处理输入序列 $x_1, x_2, \ldots, x_T$ 后，生成每个时间步的隐藏状态 $h_t^{(1)}$。第二层 LSTM 以第一层输出的隐藏状态序列 ${h_1^{(1)}, h_2^{(1)}, \ldots, h_T^{(1)}}$ 作为输入，进一步计算新的隐藏状态 $h_t^{(2)}$。作用与优势：捕捉更复杂的模式第一层：提取低层次特征（如局部变化、短时依赖）。第二层：整合低层特征，捕捉长距离依赖或抽象模式。更强的表达能力通过多层堆叠，网络能建模更复杂的序列数据映射关系。时序卷积网络TCN TCN是一种专为处理序列数据设计的深度学习架构。它通过结合因果卷积、扩张卷积和残差连接，解决了传统RNN和LSTM在并行化能力和梯度稳定性上的局限性。卷积操作：与 RNN 逐步递归处理序列不同，TCN 利用一维卷积一次性对整个序列进行并行处理，这使得训练时可以充分利用硬件的并行计算能力。 1. 因果卷积（Causal Convolution）因果卷积确保模型在预测时刻$t$的数据时，仅使用$t$时刻之前的信息，避免未来数据泄漏。因果卷积类似于一个滑动窗口（窗口大小=$k$），每次用当前和过去的$k-1$个值加权求和，生成当前时刻的输出。通过以下调整保证因果性：卷积核方向：仅对当前及过去的时间步进行卷积。填充（Padding）：在输入序列的左侧填充 $(k-1)$ 个零（$k$ 为卷积核大小），确保输出长度与输入一致，且不泄露未来信息。公式定义：对于卷积核 $W \in \mathbb{R}^k$ 和输入 $X \in \mathbb{R}^T$，因果卷积的输出 $Y \in \mathbb{R}^T$ 为： $$ Y_t = \sum_{i=0}^{k-1} W_i \cdot X_{t-i} \quad \text{（若 } t-i < 0 \text{，则 } X_{t-i}=0 \text{）} $$ 示例：输入序列 $X$: [x0, x1, x2, x3]（长度 $T=4$）卷积核 $W$: [w0, w1, w2]（大小 $k=3$）输出 $Y$: [y0, y1, y2, y3]（与输入长度相同）输入填充：左侧补 k−1=2k−1=2 个零，得到 [0, 0, x0, x1, x2, x3] 通常卷积核需要翻转：：[w2, w1, w0] 计算 $y_0$（$t=0$）: $$ y_0 = w0 \cdot x0 + w1 \cdot 0 + w2 \cdot 0 = w0 \cdot x0 $$ 计算 $y_1$（$t=1$）: $$ y_1 = w0 \cdot x1 + w1 \cdot x0 + w2 \cdot 0 $$ 计算 $y_2$（$t=2$）: $$ y_2 = w0 \cdot x2 + w1 \cdot x1 + w2 \cdot x0 $$ 计算 $y_3$（$t=3$）: $$ y_3 = w0 \cdot x3 + w1 \cdot x2 + w2 \cdot x1 $$ 最终输出 $$ Y = \left[ w0 x0, \; w0 x1 + w1 x0, \; w0 x2 + w1 x1 + w2 x0, \; w0 x3 + w1 x2 + w2 x1 \right] $$ 2. 扩张卷积（Dilated Convolution）通过膨胀因子 $d$在卷积核元素之间插入空洞（间隔），从而在不增加参数量的情况下扩大感受野。传统卷积（$d=1$）：连续覆盖 $k$ 个时间步（如 $X_t, X_{t-1}, X_{t-2}$）。扩张卷积（$d>1$）：跳跃式覆盖，跳过中间部分时间步（如 $X_t, X_{t-d}, X_{t-2d}$）。公式定义： $$ Y_t = \sum_{i=0}^{k-1} W_i \cdot X_{t-d\cdot i} \quad $$ 3. 残差连接（Residual Connection） TCN借鉴ResNet，通过残差块缓解梯度消失问题。公式定义： $$ \text{Output} = \sigma\bigl(F(x) + W_{1\times1} x \bigr) $$ $F(x)$：卷积层的输出 $\sigma$：激活函数（通常为ReLU） $W_{1\times1}$：1×1卷积核，用于调整输入$x$的维度 $x$：原始输入

科研

zy123 3月21日
0 6 0