码农知识堂 - 1000bd
Python
PHP
JS/TS
JAVA
C/C++
C#
GO
Kotlin
Swift
神经网络优化算法---学习记录
随机梯度下降SGD:
随机选择一个样本作为输入更新一次权值和偏置,可能会有偏差,即每次前进的方向不一定是正确的,会波动
核心:学习率,一般希望学习率满足robbins-monroe条件:
所有学习率求和等于无穷:保证无论起点如何,都能找到一个局部最优解
所有学习率的平方求和<无穷:控制振荡
动量:核心:在梯度方向一致的地方加速,在梯度方向不断改变的地方减速
涅斯捷罗夫动量(涅斯捷罗夫梯度加速法):参考
梯度下降算法及其改进方法详解_LVLV苗的博客-CSDN博客_梯度下降法改进
adagrad:
一种设置学习率的自适应方法
梯度与学习率:
当梯度进行小幅度变化时,需要一个大的学习率来快速达到最优解
当梯度非常大时,使用大的学习率会导致非常大的步长,来回振荡无法达到最优值。
所以设置学习率时需要考虑梯度,adagrad通过积累到目前为止所有梯度的平方,并将学习率除以这个搜和的平方来实现。所以获得高梯度的参数会降低其有效学习率,获得小梯度的参数将增加其学习率。
rmsprop:将梯度的累积变成了指数加权的移动平均值,即不考虑距离很远的梯度值。因为使用adagrad时,即使在训练开始阶段累积的梯度导致的梯度保持不变,其学习率也会降低,此处通过引入指数鉴权移动平均值,给更近的历史梯度值更大的权重。
adam:可以被看做是rmsprop和动量组合的一个变体
(一些不太相关的笔记)为什么常使用均方误差作为模型的损失函数:网络的目标是输出的准确率,但没有直接将正确率最大化最为目标而是使用均方误差是因为:神经网络的正确率不是关于权值和偏置的光滑函数。即权值和偏置的微小变化不一定能引起正确率的变化,所以不能用过正确率来不断修改w和b来提升性能
相关阅读:
redhat6.5安装nvidia驱动
在 Arweave 中轻松管理文件:借助 4EVERLAND 完成 Web3 前端Path Manifests的终极指南
Patroni的执行流
uniapp-vue3-oadmin手机后台实例|vite5.x+uniapp多端仿ios管理系统
虚拟机安装问题,遇到报错,求解
就业班 第三阶段(负载均衡) 2401--4.19 day3
Python学习基础笔记七十一——模块和库2
计算机组成原理习题课第三章-4(唐朔飞)
网络编程-NIO案例 与 AIO 案例
【算法面试必刷Java版六】判断链表是否有环
原文地址:https://blog.csdn.net/weixin_45647721/article/details/126256101
最新文章
攻防演习之三天拿下官网站群
数据安全治理学习——前期安全规划和安全管理体系建设
企业安全 | 企业内一次钓鱼演练准备过程
内网渗透测试 | Kerberos协议及其部分攻击手法
0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常,环境问题解决方案
leetcode hot100【LeetCode 279. 完全平方数】java实现
OpenWrt下安装Mosquitto
AnatoMask论文汇总
【AI日记】24.11.01 LangChain、openai api和github copilot
热门文章
十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
奉劝各位学弟学妹们,该打造你的技术影响力了!
五年了,我在 CSDN 的两个一百万。
Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
面试官都震惊,你这网络基础可以啊!
你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
心情不好的时候,用 Python 画棵樱花树送给自己吧
通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
13 万字 C 语言从入门到精通保姆级教程2021 年版
10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系
2656653265@qq.com
京ICP备2022015340号-1
正则表达式工具
cron表达式工具
密码生成工具
京公网安备 11010502049817号