• 深度神经网络为何成功?其中的过程、思想和关键主张选择


           历史总是由一群人共同创造的,历史的闪亮则是由一群人中的某一小撮人创造的。那么,我们看看深度学习的成功史,看看ChatGPT是怎样出现的。

            LeNet(1989)在小数据集上取得了很好的效果,但是在更大、更真实地数据集上训练卷积神经网络地性能和可行性还有待研究。

           与神经网络竞争的是传统机器学习方法,比如SVM(支持向量机)。这个阶段性能比神经网络方法好。

            这个时期,有好多人在研究,他们持有不同的观点和信念,有一小撮人的观点、信念以及思想主张和坚持,最终成就人类的历史伟业。

            机器学习研究人员的观点:相信机器学习既重要又美丽,用优雅的理论证明各种模型的性质。

            计算机视觉的研究人员的观点:推动领域进步的是数据特征,而不是学习算法。他们相信,从对最终模型精度的影响来说,更大或更干净的数据集或是稍加改进的特征提取方法,比任何学习算法带来的进步大的多。

            另一种观点:观察并设计图像特征的提取方法。主要工作是设计一套新的特征函数,改进结果并撰写论文,代表性成果有:SIFT、SURF、HOG等。

           还有一组研究人员(Yann LeCun, Geoff Hinton, Yoshua Bengio, Andrew Ng, Shun-ichi Amari, and Juergen Schmidhuber)的观点:认为特征本身应该被学习。有趣的是,在AlexNet网络的底层,模型学习到了一些类似于传统滤波器的特征提取器。

           最终的突破出现在2012年,AlexNet在ImageNet挑战赛上一战成名,以很大优势赢得挑战。成功可以归因于两个关键的因素:数据和硬件。2009年,ImageNet有100万个样本,1000个不同类别的对象。硬件上GPU的发展,庞大的GPU数量远远快于CPU的计算能力,GPU的带宽比CPU快10倍。

           在这个思路上一路狂奔,出现了阿尔法狗(AlphaGo)一样,2016年和2017年在围棋挑战赛上分别打败李世石和柯洁,引发全球轰动。

           在这个思路上继续发展,产生了transformer、bert等等优秀的深度学习模型类,ChatGPT(2022)则是一个现象级应用,吸引了大量关注。

           ChatGPT的出现,其基础是超过万亿的数据量(数据),上万张的GPU并行计算(算力),千亿甚至万亿参数的神经网络(算法),在今天,处于全球领先地位( state-of-the-art),具有强大的引领效应。
         

          从transformer到ChatGPT的演进过程,可参考文章《ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT_v_JULY_v的博客-CSDN博客》。

  • 相关阅读:
    关于C++编程中引入头文件的顺序
    Centos 6.5 升级到Centos7指导手册
    手把手教你用站长工具综查询网站域名在各个平台的权重情况 站长工具综查询
    Sentinel实现熔断与限流
    【opencv】传统目标检测:Haar检测器实现人脸检测
    使用keil 5.37版本编译FreeRTOS出错原因及解决办法
    Docker从认识到实践再到底层原理(八)|Docker网络
    9月14日作业
    Git的安装配置及使用(超详细!!!)
    java毕业设计社区团购系统Mybatis+系统+数据库+调试部署
  • 原文地址:https://blog.csdn.net/xw555666/article/details/134027810