5pytorch实现线性回归

发表于2025-11-12|更新于2025-11-12|pytorch刘二大人

|浏览量:

使用随机梯度下降
00:02:18.384

00:03:07.590

上节课的例子
因为梯度不会自动清零，为了使这次的梯度不影响下次的梯度，进行手工清零

线性回归就是恨简单的神经网络

训练步骤：

前馈:算损失
反馈：算梯度
更新：使用梯度下降算法更新权重
00:06:33.097

00:06:50.802

要使用mini-batch

要一次性将 $\hat{y}$ 求出来
所以需要使用矩阵运算

这里运用numpy的广播方式
00:09:36.616

就是矩阵扩充

w应该是3x3

实际上也就是向量化00:12:48.104

potrch中计算导数不再是重点因为00:13:52.605

有函数会自动计算导数

重点在于构造计算图00:14:28.914

这个被称为一个线性单元

线性模型00:19:45.155

00:21:21.908

init构造函数:初始化
forward：前馈
反向传播被自动调用
Fuctions是一个类
设计module

下面是上节课的代码，而可用于对比

super就是父类，，第一个参数类的名称
第二个self
实际上就是调用父类的init
这步一定要有

self.linear是在构造对象，00:24:42.264

00:26:15.258

这个对象包含了w和b（也就是权重和偏置）
linear也是继承于tensor，所以在使用的时候能构建计算图

这里表示输入样本的维数，输出样本的维数

这里输出、输入样本的维数一定要相等

这里的bias表示是否要b，false就仅为 $y = A x$
00:29:38.524

00:30:02.146

00:30:16.379

注意上面这个两个的区别，实际上无所谓是哪一种计算方式，只要最后结果是预期的结果就行

塑料英语：
执行了call函数
这个函数让类的例子能够进行反向传播
一般的forward会被调用

对于前面没有明确注明x=3，y=5的变量，如果不确定输入变量要多少个的时候
出现下面情况
00:33:47.229

就需要让前面接收变量可变长
00:33:54.002

使用这个方法00:34:33.331

使用这个方式可以实现不管输入多少变量，都可以被存入args中

对于后面指定变量名称的方式
00:34:55.180

同样实现输入可变长
是以字典的形式来实现
00:35:15.288
00:35:15.288

通过上面的输出可已看出就是是字典的形式

z1
在moduel的call中，就是放入了forward

这里实际上就是函数重载，
override
linearmodel有一个forward
这里重新定义一个forward

类实例化
model是可以直接被调用的
00:38:36.640

可以直接写 $m o d e l (x)$ ,就可直接调用forward

可以参考这个图

00:39:47.751

00:40:03.310

00:39:32.224

这个损失计算过程可以直接被mesLoss代替

size_avagrage是否求均值
reduce 是否求和，降维成1维其实就是上上图的 $\frac{1}{N}$

00:42:17.358

optim这个是优化器
sgd是个类，这里是在进行实例化

model.parameters
00:43:07.946

在model中没有定义权重，使用linear这样的成员
所以parameters就是告诉优化器，哪些tensor对象数需要被==优化==，这里的优化也就是需要实现update，比如进行w权重的更新（一般基于梯度下降）

model的成员函数parameters
会检查model中所有成员
如果成员里有权重，就会把这个权重加到参数集合上

他会基于计算图查找所有嵌套的成员是否有权重
00:45:11.955

lr是学习率
learning rate
00:45:58.809

可以对不同的部分使用不同的学习率

print函数
中的loss自动调用__str__()，不会生成计算图
00:48:00.459

把所有权重的梯度归零
然后进行反向传播
step函数进行权重更新
00:49:22.738

$\hat{y}$
loss
backward
更新w
00:49:53.799

如果不加item，weight是一个矩阵

这里就是让x_test作为tensor对象，其中的数值是4
然后将tensor对象x_test传入model，使用 $y = w x + b$
进行计算

输入输出的都是二倍的关系
由已知的结果分析，w应该是2，而b应该为0
y_pred应该维8
所以这次的结果并不理想
说明训练还没有收敛的很好

后面进行的1000次迭代，实现的结果

上面这个点是过拟合点
红色线是测试集
蓝色是训练集

如果训练次数过多，会有过拟合的风险

准备数据集
设计模型
中间的criterion构造损失函数 $\frac{1}{N} (\hat{y} - y)$ ，后面的是优化器（update）
然后是进行训练
00:54:20.540

这里是不同的优化器
sgd优化器是基于随机梯度下降法，进行权重更新的优化器

文章作者: Xing

文章链接: http://example.com/2025/11/12/pytorch%E5%88%98%E4%BA%8C%E5%A4%A7%E4%BA%BA/5pytorch%E5%AE%9E%E7%8E%B0%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Xing！

学习资源神经网络计算机网络优化算法深度学习 PyTorch 线性回归数据集优化性能

相关推荐

7处理多维输入

输入有多个特征每一行被叫做一个样本 00:01:22.739 meiyili 每一列被称为特征 excel常用空格 tab ，进行分割 00:10:22.816 00:10:06.374 00:12:37.613 00:13:38.352 00:14:24.317 一组一组的运算转换成矩阵运算（向量化的运算）为什么要变换：因为可以并行计算，这个样利用cpu或者gpu的并行计算能力 00:15:14.284 上图是上节课的可以用于与这节课的图片进行对比把多层logist回归相连就可以构建多层神将网路 00:17:12.583 00:17:28.402 这里列的数量对应特征00:17:50.766 00:18:23.748 这样可以再接一层，让2维的再降到1维 00:20:31.314 00:21:21.153 我们的目标是8d->1d的非线性变换函数 #mjx-b62d9cf{ display:contents; mjx-assistive-mml { ...

8加载数据集

前情提要: 因为有鞍点的存在，可能会导致深度学习在循环中共，无法继续往梯度下降的方向进行。所以我们选择了随机梯度下降算法，而不是求平均loss的梯度下降算法。我的理解就是使用不确定性的好来对抗确定性的差 00:04:34.963 把所有样本进行了前馈，和反向传播就是一轮epoch 00:04:45.488 每次训练中所用的样本数量这里没有上上上图中的for i in range 所以这里就是所有的数据都进行随机梯度下降计算 00:05:09.337 iteration（这块理解比较抽象） batch分了多少个比如有1000个数据 100是batch-size 经过了10次的迭代，以100 batch-size的方式实现了1000个数据训练 shuffle 打乱顺序 00:07:09.352 00:07:53.784 00:08:41.339 00:09:51.557 00:10:05.801 用来加载数据，可以实例化一个dataloader dataset是一个抽象类，不能实例化 00:10:45.689 getitem是实例化之后，可以进行下标搜...

9多分类问题

使用softmax 00:01:46.755 00:01:58.457 十个分类神经网络应该如何设计 00:03:21.365 希望的要求：输出之间竞争性输出就是一个分布概率大于0 概率求和为1 00:08:00.963 00:09:30.429 00:10:29.210 求和之后结果为100:12:58.619 00:13:42.719 00:14:09.852 00:14:49.264 00:14:59.977 交叉熵 00:18:14.365 00:19:17.457 00:19:36.942 00:20:50.262 00:21:47.606 00:22:31.144 最后一层是不需要手动进行非线性激活的，因为交叉熵损失会直接激活 00:24:38.539 00:24:21.657 2表示这个第二个元素最大 0表示第0个元素最大 1表示第一个元素最大 y_pred和预测的比较拟合，所以第一个预测算出来的损失会比较小 00:26:14.653 00:26:40.399 思考交叉熵和nll损失的区别 00:28:33.060...

11卷积神经网络（高级）

之前学习的都是线性的串行结构就是上一个的输出作为下个的输入 00:02:06.381 convoltion：卷积 pooling：池化 softmax：输出 other：拼接层为了减少代码冗余：使用函数调用构造类 00:04:05.180 发现这些快长得都一样所以把其封装成类 00:06:02.235 有一些参数比较难选比如kernel选哪个， googlenet的思路是，再一个块中，使用多个kernnel 然后对结果进行评价，让最优的kernel权重增加 00:09:21.370 对于每一条路，变换之后bwh必须相同 c可以不同 00:11:39.744 00:11:51.236 00:11:59.066 00:13:31.719 00:13:30.545 00:13:30.545 求和也就是信息融合 00:17:39.604 00:19:24.494 上面这个的运算量太大了 00:20:06.613 直接变为原来的十分之一这个也就是1x1的卷积神经网络的作用网络中的网络：1x1卷积 00:22:11.511 00:23:26.25...

深度学习顺序准备数据集模型选择训练推理 00:01:57.536 00:02:38.739 00:03:56.345 仅有输入的数据，在测试或者推理阶段 00:04:40.157 数据集交给算法，得到预测算法，使用模型只进行预测 00:05:46.753 知道输出值-》监督学习测试集用于评价模型好坏数据集分成两个部分 00:08:42.608 00:10:06.592 00:12:21.957 00:13:54.806 深度学习训练最大问题：过拟合过拟合：把图像中的噪声也学进去了比如训练集中的小猫都很可爱，但是测试集的小猫不可爱，导致测试中无法准确识别需要模型有比较好的泛化能力训练集分成两份开发集用于对训练集进行评估，防止过拟合评估比较好好再把所有的训练集重新训练，之后丢给测试集 00:15:00.775 00:17:13.524 其实就是找到 #mjx-5672fa7{ display:contents; mjx-assistive-mml { ...

目标实现一个学习系统理解简单的神经网络（nn）/dl 00:11:46.636 人类智能通过信息进行推理看到照片与抽象概念结合：预测 00:19:29.936 mechine learning 就是代替人脑目前常用的都是监督学习算法思维：穷举贪心分治动态规划深度学习：有数据集找出算法机器学习计算过程也就是函数来源于数据，而不是人工（基于统计） 00:24:01.499 dl属于表示学习rl 00:28:28.199 求原函数首先构造知识库 00:29:14.598 00:29:41.156 实现类似人类智能的就算ai 00:32:34.716 对于复杂问题，基于规则的代码，人类难以维护经典机器学习：手工提取特征。最重要要把 00:34:05.608 重点是使用机器学习找到中间的 #mjx-3f243cf{ display:contents; mjx-assistive-mml { user-select: text !important; ...