大模型简介

文章目录

大模型简介

大模型简介

什么是大模型

大模型，全称「大语言模型」，英文「Large Language Model」，缩写「LLM」。是具有大量参数和复杂结构的机器学习模型。大模型通常具有数亿到数千亿个参数，在大量的文本或其他数据上进行训练，这些数据包括网络上的文章、书籍、对话等，以便模型能够学习广泛的知识和语言模式。

GPT大语言模型发展

我们从 gpt 的诞生开始说起，在往之前的就不追溯了

gpt-1 发布于 2018年6月，基于 Transformer 架构，包含 12 层 Transformer 解码器。有 1.17 亿个参数。

gpt-2 发布于 2019年11月，与GPT-1类似，但规模更大，有15亿个参数

GPT-3 发布于2020年6月，扩展了GPT-2的架构，有1750亿个参数

GPT-3.5 发布于2022年3月，在训练数据量计算资源方面都有所增加，处理复杂问题和理解上下文方面表现的更好，生成的输出表现出更少的错误和更高的一致性，更具有通用性。同年11月30日，基于GPT-3.5推出了ChatGPT聊天机器人程序，一个具有划时代意义的产品，

GPT-4 发布于 2023年3月，理解和推理能力增强，在复杂推理、逻辑分析和上线文理解方面有了更好的表现，增加了多模态能力。

Sora 发布于2024年2月，一款文生视频大模型

大语言模型对话产品

国家	公司	对话产品	旗舰大模型	网址
美国	OpenAI	ChatGPT	GPT	https://chatgpt.com/
美国	Microsoft	Copilot	GPT 和未知	https://copilot.microsoft.com/
美国	Google	Gemini	Gemini	https://gemini.google.com/
美国	Anthropic	Claude	Claude	https://claude.ai/
中国	百度	文心一言	文心	https://yiyan.baidu.com/
中国	阿里云	通义千问	通义千问	https://tongyi.aliyun.com/qianwen
中国	智谱 AI	智谱清言	GLM	https://chatglm.cn/
中国	月之暗面	Kimi Chat	Moonshot	https://kimi.moonshot.cn/
中国	MiniMax	星野	abab	https://www.xingyeai.com/
中国	深度探索	deepseek	DeepSeek	https://chat.deepseek.com/

大模型怎么用

记得在2021年的时候，我参加了一次关于AI的学术论坛讲座，有位教授对待AI的态度让我印象深刻。

在QA环节中，有人问教授：“现在AI一直在发展，它会不会发展的和人一样？会不会伤害人类？到那个我们应该怎么和它相处？”教授回答说：“AI如果真的发展的和我们一样了，那他本质上就是另类的人。那么我们人的思想是怎么样的，那AI的思想就是怎么样的，我们怎么和人相处就怎么和它相处。”（不是原话，大概的意思）。如今已是2024年，听说马斯克的机器人已经上市，感觉AI发展的与人类相似的日子不远了。重新回想起教授的回答，我认为我们现在应该可以把AI当作人来看待。

我们应该像向老师请教，或者与朋友讨论一样去对待AI。当然，在AI时代，我们不能放弃学习，我们知道的越多，就越能知道怎么让AI来帮助我们。我们要把AI作为辅助工具来利用，让我们的工作和生活更高效。

我们的认知上限决定了AI作用的上限。如果我们拥有这样一个工具却不加以使用，或者仅仅提出一些刁钻的问题让它回答，与深度使用它来作为生活中的助手相比，效果是完全不同的。

相关阅读:
骨传导耳机怎么听到声音?骨传导耳机是否会对听力造成损害?
如何设计鞋材出库入账管理系统
Java Spring Boot 目录结构介绍
青骨申报|CSC管理信息平台使用指南
[原创]九点标定工具之机械手头部相机标定
【物理应用】基于matlab白鲸算法太阳能光伏模型参数估计【含Matlab源码 2018期】
查询硬盘序列号、物理地址及对应批处理命令
设计模式-Strategy模式（策略模式）
红队web打点信息收集
GAN网络系列博客(一)：用于人脸生成的StyleGAN结构

原文地址：https://blog.csdn.net/u010398650/article/details/140274923