4back propagation(反向传播）

发表于2025-11-12|更新于2025-11-12|pytorch刘二大人

|浏览量:

00:02:18.624

注意这里时对损失进行求导，而不是对 $\hat{y}$
00:02:33.467

第一层00:03:49.205

隐层h1第一层，是6维的
x是5维的
隐层h2 7维

写解析式太麻烦了

面对这样的复杂网络
把网络看成图
再图上进行传播梯度
基于链式法则
00:05:33.953

两层神经网络
00:06:52.853

这个转置符号无所谓
x的维数为N
00:07:26.884

00:08:01.980

h1的维数为m

b1是m维
00:08:58.784

全链接神经网络的第一层

下面是第二层
00:09:52.605

把两层变成1层，不管多少层，线性变换，都可以变成1层。

为了提高模型的复杂程度
00:12:34.502

添加一个非线性的函数，用于提高复杂程度
nonliner
00:13:14.804

链式求导法则

00:15:48.046
00:15:54.984

首先进行前馈操作00:16:07.295

也就是x->z

输出的结果z与实际值要求值之间的差值，对于z求导，这样得到偏导00:17:32.366

在一步一步进行反向传播。
最主要目的还是获得L对w的梯度，实现权重更新
"//"是分数的快捷键
对于 x,其实只有两层神经网络，是用不到的，但是对与超过两层的神经网络来说，就很有必要，因为这里的x会需要继续反向传播回上一层，用于上一层接着计算梯度

{trigger: “par”, replacement: "\frac{ \partial ${0:y} }{ \partial ${1:x} } $2", options: "m"},这个没有A的意识是需要按 `tab` 来手动触发转换$ \frac{ \partial z }{ \partial w }$

然后可可以进行权重更新

在前馈过程中，还计算了梯度

开始进行反向传播
00:24:59.293

00:26:04.911
image.png

作业：
00:27:26.419

00:28:07.541

00:28:47.574

前馈然后反馈

pytorch中进行前馈反馈计算

tensor 保存所有的数值
这个类00:30:35.519

使用pytorch构建神经网络其实就是在构建一个这样的计算图

只有需要计算梯度的时候才设置requires_grad
00:32:28.943

这里w是tensor
所以这里x进行自动的类型转换

因为w需要梯度计算
所以计算结果也需要梯度计算

每调用loss函数就是在构建计算图

训练过程：
00:35:41.707

直接调用backward
就可以进行反向传播
把这个这个计算链路中所有需要梯度计算的值都求出来
00:36:19.110

然后自动把梯度放到变量中
w对应的梯度直接放到w这个类的生成的对象中
调用一次backward之后loss生成的计算图就使用完了，就被释放掉了

下一个epoc进行loss计算就会重新创建一个新的计算图

必须要取到data,因为grad也是一个tensor对象
如果不写，就是在建立计算图

grad.item 用于输出一个标量，来输出梯度

使用sum来计算所有的损失00:41:17.290

因为tensor对象在加法运算中会构建计算图
所以在for循环中重复加法会导致这个计算图特别的长，导致内存爆掉
00:42:08.001

w中数据梯度清零
00:42:46.441

因为w是一个全局变量
而不清零会导致下一轮中加上上一轮的梯度

流程图
00:45:12.777

注意这里需要使用data。而不是直接使用tensor对象来进行更新，因为tensor对象会导致计算图的构建

作业：
00:45:38.919

文章作者: Xing

文章链接: http://example.com/2025/11/12/pytorch%E5%88%98%E4%BA%8C%E5%A4%A7%E4%BA%BA/4back%20propagation(%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%EF%BC%89/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Xing！

神经网络计算机网络优化算法深度学习 PyTorch 线性回归刘二大人梯度下降机器学习反向传播

相关推荐

11卷积神经网络（高级）

之前学习的都是线性的串行结构就是上一个的输出作为下个的输入 00:02:06.381 convoltion：卷积 pooling：池化 softmax：输出 other：拼接层为了减少代码冗余：使用函数调用构造类 00:04:05.180 发现这些快长得都一样所以把其封装成类 00:06:02.235 有一些参数比较难选比如kernel选哪个， googlenet的思路是，再一个块中，使用多个kernnel 然后对结果进行评价，让最优的kernel权重增加 00:09:21.370 对于每一条路，变换之后bwh必须相同 c可以不同 00:11:39.744 00:11:51.236 00:11:59.066 00:13:31.719 00:13:30.545 00:13:30.545 求和也就是信息融合 00:17:39.604 00:19:24.494 上面这个的运算量太大了 00:20:06.613 直接变为原来的十分之一这个也就是1x1的卷积神经网络的作用网络中的网络：1x1卷积 00:22:11.511 00:23:26.25...

10卷积神经网络（初级）

二维卷积神经网络 00:03:44.271 放进卷积层，然后使通道数提升 00:04:36.639 下采样层中通道数是不变的但是宽高会变目的减少数据量，降低运算的需求 00:05:59.344 再做一次5x5的卷积然后2x2的下采样最后要把三阶向量展开成一维向量就是挨个排序 00:07:13.014 然后利用全连接层来映射到10个输出利用各种层，进行维度变换 00:08:22.737 卷积+下采样=特征提取器图像： rgb图像栅格图像 00:11:25.291 00:24:15.002 00:25:19.212 取出来一个图形块对图像块进行卷积依次移动输出通道数 00:28:20.851 00:29:22.737 00:29:54.087 00:30:10.046 这个就是单通道卷积的形象表示 00:30:33.601 三通道卷积 00:31:02.697 每一个通道设置一个卷积核 00:32:17.903 最后三维变成1维 00:33:10.285 00:35:20.005 由于kernel 是3x3的所以 h和w减二 ...

目标实现一个学习系统理解简单的神经网络（nn）/dl 00:11:46.636 人类智能通过信息进行推理看到照片与抽象概念结合：预测 00:19:29.936 mechine learning 就是代替人脑目前常用的都是监督学习算法思维：穷举贪心分治动态规划深度学习：有数据集找出算法机器学习计算过程也就是函数来源于数据，而不是人工（基于统计） 00:24:01.499 dl属于表示学习rl 00:28:28.199 求原函数首先构造知识库 00:29:14.598 00:29:41.156 实现类似人类智能的就算ai 00:32:34.716 对于复杂问题，基于规则的代码，人类难以维护经典机器学习：手工提取特征。最重要要把 00:34:05.608 重点是使用机器学习找到中间的 #mjx-3f243cf{ display:contents; mjx-assistive-mml { user-select: text !important; ...

7处理多维输入

输入有多个特征每一行被叫做一个样本 00:01:22.739 meiyili 每一列被称为特征 excel常用空格 tab ，进行分割 00:10:22.816 00:10:06.374 00:12:37.613 00:13:38.352 00:14:24.317 一组一组的运算转换成矩阵运算（向量化的运算）为什么要变换：因为可以并行计算，这个样利用cpu或者gpu的并行计算能力 00:15:14.284 上图是上节课的可以用于与这节课的图片进行对比把多层logist回归相连就可以构建多层神将网路 00:17:12.583 00:17:28.402 这里列的数量对应特征00:17:50.766 00:18:23.748 这样可以再接一层，让2维的再降到1维 00:20:31.314 00:21:21.153 我们的目标是8d->1d的非线性变换函数 #mjx-b62d9cf{ display:contents; mjx-assistive-mml { ...

5pytorch实现线性回归

使用随机梯度下降 00:02:18.384 00:03:07.590 上节课的例子因为梯度不会自动清零，为了使这次的梯度不影响下次的梯度，进行手工清零线性回归就是恨简单的神经网络 00:06:32.614 训练步骤：前馈:算损失反馈：算梯度更新：使用梯度下降算法更新权重 00:06:33.097 00:06:50.802 要使用mini-batch 要一次性将 #mjx-3521173{ display:contents; mjx-assistive-mml { user-select: text !important; clip: auto !important; color: rgba(0,0,0,0); } mjx-container[jax="SVG"] { direction: ltr; } mjx-container[jax="SVG"] > svg { overflow: ...

9多分类问题

使用softmax 00:01:46.755 00:01:58.457 十个分类神经网络应该如何设计 00:03:21.365 希望的要求：输出之间竞争性输出就是一个分布概率大于0 概率求和为1 00:08:00.963 00:09:30.429 00:10:29.210 求和之后结果为100:12:58.619 00:13:42.719 00:14:09.852 00:14:49.264 00:14:59.977 交叉熵 00:18:14.365 00:19:17.457 00:19:36.942 00:20:50.262 00:21:47.606 00:22:31.144 最后一层是不需要手动进行非线性激活的，因为交叉熵损失会直接激活 00:24:38.539 00:24:21.657 2表示这个第二个元素最大 0表示第0个元素最大 1表示第一个元素最大 y_pred和预测的比较拟合，所以第一个预测算出来的损失会比较小 00:26:14.653 00:26:40.399 思考交叉熵和nll损失的区别 00:28:33.060...