Epoch、批量大小、迭代次数

梯度下降

它是 机器学习中使用的迭代 优化算法，用于找到最佳结果（曲线的最小值）。

坡度是指斜坡的倾斜度或倾斜度

梯度下降有一个称为 学习率的参数。 正如您在上图（左）中看到的，最初步长较大，这意味着学习率较高，随着点的下降，学习率因步长变短而变得更小。另外，成本函数正在递减或成本正在递减。有时你可能会看到人们说损失函数正在递减或损失正在递减，成本 （顺便 和损失 代表同一件事 说一句，我们的损失/成本是一件好事正在减少）。

只有当数据太大时，我们才需要像epoch、batch size、iteration这样的术语，这种情况在机器学习中经常发生，并且我们无法一次将所有数据传递到计算机。因此，为了克服这个问题，我们需要将数据分成更小的尺寸，然后将其一一交给我们的计算机，并在每一步结束时更新神经网络的权重，以使其适合给定的数据。

Epoches: 一个epoch是指整个数据集仅通过神经网络向前和向后传递一次。

由于一个epoch太大而无法一次输入计算机，因此我们将其分成几个较小的批次。

为什么我们使用多个 Epoch？

我知道一开始就没有意义——通过神经网络传递整个数据集是不够的。我们需要将完整的数据集多次传递到同一个神经网络。但请记住，我们使用的数据集有限，为了优化学习和图形，我们使用 梯度下降 ，这是一个迭代过程。因此， 仅通过单遍或一个 epoch 更新权重是不够的。

一个epoch会导致图表中的曲线欠拟合（下图）。

随着 epoch 数量的增加，神经网络中权重变化的次数增多，曲线从 欠拟合 到最优再到过拟合曲线。

那么，正确的epoch数是多少？

不幸的是，这个问题没有正确答案。对于不同的数据集，答案是不同的，但你可以说纪元的数量与你的数据的多样性有关……只是一个例子 - 你的数据集中只有黑猫还是更多样化的数据集？

Batach size批量大小

单批次(one iteration)中存在的训练示例总数。

注意： 批次大小 (batch size)和批次数量(number of batches)是两个不同的东西。

迭代 Iterations

迭代次数是完成一个 epoch 所需的批次数(number of batches)。

注意：(number of batches) 批次数等于一个 epoch 的迭代次数(number of iterations for one epoch.)。

假设我们有 2000 个要使用的训练示例samples。

我们可以将 2000 个示例的数据集分成 500 (number of batches)个批次 batch ，然后需要 4 (number of iterations)次迭代才能完成 1 个 epoch。

其中 Batch Size 为 500，Iterations 为 4，相当于 1 个完整的 epoch。

相关阅读:
SpringMVC的零配置WebApplicationInitializer
Python操作Mysql
leetcode第311场周赛题解
八、T100应付管理系统之员工费用报销管理篇
Vue的进阶使用--模板语法应用拓展（表单及组件通信）
【MySQL系列】MySQL的用户管理
Redis系列之如何高效使用
使用burp对Tomcat 弱密码爆破
00｜漫展人物备注
JS返回NodeList和HTMLCollection详解

原文地址：https://blog.csdn.net/qq_40837542/article/details/133896671