• GPT研究


    1. 分词

    2. embedding

    在大型语言模型(如GPT-3)中,“embedding”(嵌入)通常指的是词嵌入(Word Embeddings)或位置嵌入(Position Embeddings)。这些嵌入在模型内部用于表示输入文本的不同方面,以便模型能够理解和处理自然语言文本。

    1. 词嵌入(Word Embeddings)词嵌入是将自然语言中的单词映射到向量空间的技术。在大型语言模型中,每个单词都会被表示为一个固定长度的向量,这个向量编码了单词的语义信息。这使得模型能够理解单词之间的语义关系,从而更好地生成连贯的文本或解决自然语言处理任务。

    2. 位置嵌入(Position Embeddings):位置嵌入用于表示输入文本中单词的位置信息。因为大型语言模型是基于注意力机制的,它们需要知道单词在输入序列中的位置以正确处理语法和语义。位置嵌入是一种将位置信息编码成向量的方式,使得模型可以在考虑单词的同时考虑它们在句子中的位置。

    这些嵌入向量通常是在模型的训练过程中学习得到的,模型会不断地调整这些向量以最优化其性能。嵌入在自然语言处理中扮演着关键的角色,因为它们有助于模型理解和表达文本的复杂信息。通过将单词和位置信息嵌入到连续向量空间中,大型语言模型可以更好地处理自然语言文本,实现各种文本生成和理解任务。

    3. 向量数据库

    4. 向量召回

    向量召回是一种机器学习技术,用于在大型数据集中快速检索相似项。它将每个数据点表示为高维向量,并使用相似度度量来计算它们之间的距离。通过将查询表示为向量并计算其与数据集中其他向量的相似度,可以快速找到最相似的项。这种技术通常用于推荐系统、搜索引擎和自然语言处理等应用中。

    5. chatGpt核心原理

    ChatGPT本质上是个不断递归执行的生成式的函数:
    当你看到萝卜青菜这4个字的时候,脑海中想的是什么?

    我想大概率是各有所爱

    给到GPT的时候,GPT根据这4个字和逗号,推测出下个字的大概率是
    在这里插入图片描述
    然后GPT会再次将萝卜青菜,各输入给自己,推测出下个字的大概率是
    在这里插入图片描述
    这就是ChatGPT在输出文字时是逐字输出的原因,这种形式最符合LLM运行的底层原理,在用户体验上也能让用户更快看到第一个字,体验上接近聊天而不是阅读。它是故意的。

    在生成式语言模型中,上文单词离得越远,对生成结果的影响就越小。

    但是,通过Transform可以解决这个问题,它和核心是自注意力机制,用来解决长距离文本的权重问题。

    参考链接:https://developer.jdcloud.com/article/2938?mid=30

    GPT16k和32k代表什么意思

    “GPT-16k” 和 “GPT-32k” 是指 GPT(Generative Pre-trained Transformer)模型的不同变种,它们的名称反映了模型中包含的参数数量。

    具体来说:

    • “GPT-16k” 表示一个拥有大约 16,000 个参数的 GPT 模型。
    • “GPT-32k” 表示一个拥有大约 32,000 个参数的 GPT 模型。

    参数数量通常用来表示一个模型的规模和复杂性。一般来说,参数越多,模型的表示能力和潜在的性能越强大。因此,GPT-32k 模型相对于 GPT-16k 模型来说,拥有更多的参数,通常可以更好地处理各种自然语言处理任务,如文本生成、文本理解、翻译等。

    这些命名约定有助于人们理解不同 GPT 变种之间的差异,以便选择适合其需求的模型。然而,请注意,具体的性能和用途可能受到模型的其他因素和训练数据的影响。


  • 相关阅读:
    如何使用Java反射获取指定类的全部属性呢?
    Linux-管道、环境变量、常用命令
    「C++: Eigen」第二章 第一节 Linear algebra and decompositions
    Java 变量之变量数据类型
    项目开发好用工具
    直播是未来互联网创业者必备的素质之一?
    odoo启动-加载模块(load_modules)
    LeetCode301:删除无效的括号
    【数据结构】堆排序的实现
    【python学习】基础篇-常用模块-
  • 原文地址:https://blog.csdn.net/yexudengzhidao/article/details/133236441