7处理多维输入

发表于2025-11-12|更新于2025-11-12|pytorch刘二大人

|浏览量:

输入有多个特征
每一行被叫做一个样本
00:01:22.739

meiyili

每一列被称为特征

excel常用空格 tab ，进行分割

一组一组的运算转换成矩阵运算（向量化的运算）
为什么要变换：
因为可以并行计算，这个样利用cpu或者gpu的并行计算能力
00:15:14.284

上图是上节课的
可以用于与这节课的图片进行对比

把多层logist回归相连就可以构建多层神将网路

00:17:28.402
这里列的数量对应特征00:17:50.766

这样可以再接一层，让2维的再降到1维

我们的目标是8d->1d的非线性变换函数
$σ$ 函数被叫做激活函数
00:23:26.486

可以维度一直下降
也可以维度一直上升

中间的隐层越多，学习能力越强

如果学习能力太强就会导致把数据中的噪声也学到了。导致模型泛化性太差

数据读取

最好使用float32,因为n卡gpu只支持32位的浮点数
[:,:,-1]
所有行从第一列开始，最后一列不要

[:,[-1]]
这里的[-1]表示生成的是一个矩阵

这里的激活函数不同
和上节课的进行对比，这里的两个sigmoid不一样，上节课是 function.sigmoid
这节课是 nn.Sigmoid 这是个模块
都是继承自modle
（这里其实不是很懂

这样的一串，最好就使用一个变量，减少麻烦
00:39:25.724

再计算损失和优化器的地方没有多少区别

00:39:40.720

循环训练
这里其实没有没有使用mini-batch（也就是让一部分使用随机梯度下降算法来更新w）
00:40:18.536

比较不同的激活函数

下面这两个就是使用了不同的激活函数
sigmoid是激活函数，而下面的两个不一样
00:42:14.062

可以比较收敛的速度

修改激活函数只需要修改这里的一句话

这里有个风险，如果self.linear3(x)生成的是小于0的数
就会导致x为0，可以看下面手绘的图来解释。因为后面有可能会使用ln之类的函数，所以存在风险
00:43:23.613

文章作者: Xing

文章链接: http://example.com/2025/11/12/pytorch%E5%88%98%E4%BA%8C%E5%A4%A7%E4%BA%BA/7%E5%A4%84%E7%90%86%E5%A4%9A%E7%BB%B4%E8%BE%93%E5%85%A5/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Xing！

学习资源神经网络优化算法深度学习 PyTorch 线性回归刘二大人设计模式优化性能

相关推荐

5pytorch实现线性回归

使用随机梯度下降 00:02:18.384 00:03:07.590 上节课的例子因为梯度不会自动清零，为了使这次的梯度不影响下次的梯度，进行手工清零线性回归就是恨简单的神经网络 00:06:32.614 训练步骤：前馈:算损失反馈：算梯度更新：使用梯度下降算法更新权重 00:06:33.097 00:06:50.802 要使用mini-batch 要一次性将 #mjx-3521173{ display:contents; mjx-assistive-mml { user-select: text !important; clip: auto !important; color: rgba(0,0,0,0); } mjx-container[jax="SVG"] { direction: ltr; } mjx-container[jax="SVG"] > svg { overflow: ...

11卷积神经网络（高级）

之前学习的都是线性的串行结构就是上一个的输出作为下个的输入 00:02:06.381 convoltion：卷积 pooling：池化 softmax：输出 other：拼接层为了减少代码冗余：使用函数调用构造类 00:04:05.180 发现这些快长得都一样所以把其封装成类 00:06:02.235 有一些参数比较难选比如kernel选哪个， googlenet的思路是，再一个块中，使用多个kernnel 然后对结果进行评价，让最优的kernel权重增加 00:09:21.370 对于每一条路，变换之后bwh必须相同 c可以不同 00:11:39.744 00:11:51.236 00:11:59.066 00:13:31.719 00:13:30.545 00:13:30.545 求和也就是信息融合 00:17:39.604 00:19:24.494 上面这个的运算量太大了 00:20:06.613 直接变为原来的十分之一这个也就是1x1的卷积神经网络的作用网络中的网络：1x1卷积 00:22:11.511 00:23:26.25...

8加载数据集

前情提要: 因为有鞍点的存在，可能会导致深度学习在循环中共，无法继续往梯度下降的方向进行。所以我们选择了随机梯度下降算法，而不是求平均loss的梯度下降算法。我的理解就是使用不确定性的好来对抗确定性的差 00:04:34.963 把所有样本进行了前馈，和反向传播就是一轮epoch 00:04:45.488 每次训练中所用的样本数量这里没有上上上图中的for i in range 所以这里就是所有的数据都进行随机梯度下降计算 00:05:09.337 iteration（这块理解比较抽象） batch分了多少个比如有1000个数据 100是batch-size 经过了10次的迭代，以100 batch-size的方式实现了1000个数据训练 shuffle 打乱顺序 00:07:09.352 00:07:53.784 00:08:41.339 00:09:51.557 00:10:05.801 用来加载数据，可以实例化一个dataloader dataset是一个抽象类，不能实例化 00:10:45.689 getitem是实例化之后，可以进行下标搜...

9多分类问题

使用softmax 00:01:46.755 00:01:58.457 十个分类神经网络应该如何设计 00:03:21.365 希望的要求：输出之间竞争性输出就是一个分布概率大于0 概率求和为1 00:08:00.963 00:09:30.429 00:10:29.210 求和之后结果为100:12:58.619 00:13:42.719 00:14:09.852 00:14:49.264 00:14:59.977 交叉熵 00:18:14.365 00:19:17.457 00:19:36.942 00:20:50.262 00:21:47.606 00:22:31.144 最后一层是不需要手动进行非线性激活的，因为交叉熵损失会直接激活 00:24:38.539 00:24:21.657 2表示这个第二个元素最大 0表示第0个元素最大 1表示第一个元素最大 y_pred和预测的比较拟合，所以第一个预测算出来的损失会比较小 00:26:14.653 00:26:40.399 思考交叉熵和nll损失的区别 00:28:33.060...

深度学习顺序准备数据集模型选择训练推理 00:01:57.536 00:02:38.739 00:03:56.345 仅有输入的数据，在测试或者推理阶段 00:04:40.157 数据集交给算法，得到预测算法，使用模型只进行预测 00:05:46.753 知道输出值-》监督学习测试集用于评价模型好坏数据集分成两个部分 00:08:42.608 00:10:06.592 00:12:21.957 00:13:54.806 深度学习训练最大问题：过拟合过拟合：把图像中的噪声也学进去了比如训练集中的小猫都很可爱，但是测试集的小猫不可爱，导致测试中无法准确识别需要模型有比较好的泛化能力训练集分成两份开发集用于对训练集进行评估，防止过拟合评估比较好好再把所有的训练集重新训练，之后丢给测试集 00:15:00.775 00:17:13.524 其实就是找到 #mjx-5672fa7{ display:contents; mjx-assistive-mml { ...

3梯度下降算法的实现

00:02:00.228 使用随机猜测寻找 #mjx-6674e5f{ display:contents; mjx-assistive-mml { user-select: text !important; clip: auto !important; color: rgba(0,0,0,0); } mjx-container[jax="SVG"] { direction: ltr; } mjx-container[jax="SVG"] > svg { overflow: visible; min-height: 1px; min-width: 1px; } mjx-container[jax="SVG"] > svg a { fill: blue; stroke: blue; } mjx-assistive-mml { position: absolute !important; ...