原文地址:什么是生成式人工智能?人工智能创造
生成式人工智能模型可以进行对话、回答问题、编写故事、生成源代码以及创建几乎任何描述的图像和视频。以下是生成式人工智能的工作原理、使用方式以及其局限性比您想象的要大的原因。
生成式人工智能是一种人工智能,它根据从现有内容中学到的模式来创建新内容,包括文本、图像、音频和视频。当今的生成式人工智能模型已经使用深度学习或深度神经网络对大量数据进行了训练,它们可以进行对话、回答问题、编写故事、生成源代码以及创建任何描述的图像和视频,所有这些都基于简短的文本输入或“提示”。
生成式人工智能之所以被称为生成式,是因为人工智能创造了以前不存在的东西。这就是它与判别式人工智能的不同之处,判别式人工智能会区分不同类型的输入。换句话说,辨别人工智能试图回答这样的问题:“这张图片是兔子还是狮子的图画?” 而生成式人工智能则对诸如“给我画一张狮子和兔子坐在一起的图片”之类的提示做出反应。
本文向您介绍生成式 AI 及其在ChatGPT 和 DALL-E等流行模型中的用途。我们还将考虑该技术的局限性,包括为什么“太多手指”已经成为人工生成艺术的致命弱点。
生成式人工智能已经存在很多年了,可以说是从 ELIZA(一种模拟与治疗师交谈的聊天机器人)于 1966 年在麻省理工学院开发出来开始。但是,随着新的生成式人工智能系统的发布,多年来在人工智能和机器学习方面的工作最近取得了成果。您几乎肯定听说过ChatGPT,这是一种基于文本的人工智能聊天机器人,可以生成非常类似人类的散文。 DALL-E 和 Stable Diffusion 也因其根据文本提示创建充满活力且逼真的图像的能力而受到关注。
这些系统的输出是如此不可思议,以至于许多人提出了有关意识本质的哲学问题,并担心生成式人工智能对人类工作的经济影响。然而,尽管所有这些人工智能创造无可否认都是大新闻,但可以说,表面之下发生的事情比一些人想象的要少。我们稍后将讨论其中一些大问题。首先,让我们看看幕后发生了什么。
生成式人工智能使用机器学习来处理大量的视觉或文本数据(其中大部分是从互联网上抓取的),然后确定哪些事物最有可能出现在其他事物附近。生成式人工智能的大部分编程工作都涉及创建算法,这些算法可以区分人工智能创造者感兴趣的“事物”——对于ChatGPT等聊天机器人来说是单词和句子,对于DALL-E来说是视觉元素。但从根本上来说,生成式人工智能通过评估大量数据来创建输出,然后根据该数据集确定的概率范围内的内容来响应提示。
自动完成——当你的手机或 Gmail 提示你正在输入的单词或句子的其余部分可能是什么时——是生成人工智能的一种低级形式。ChatGPT 和 DALL-E 只是将这个想法提升到了更先进的高度。
ChatGPT 和 DALL-E 是底层 AI 功能的接口,在 AI 术语中称为模型。人工智能模型是一种数学表示——以算法或实践的形式实现——生成新数据(希望)类似于您手头已有的一组数据。有时您会看到 ChatGPT 和 DALL-E 本身被称为模型;严格来说,这是不正确的,因为 ChatGPT 是一个聊天机器人,它允许用户访问底层 GPT 模型的多个不同版本。但在实践中,这些界面是大多数人与模型交互的方式,因此看到这些术语互换使用时不要感到惊讶。
人工智能开发人员收集了他们希望模型生成的类型的数据集。该语料库称为模型的训练集,开发模型的过程称为训练。例如,GPT 模型是在从互联网上抓取的大量文本语料库上进行训练的,结果是你可以向它提供自然语言查询,它会用惯用的英语(或任何其他语言,具体取决于输入)。
人工智能模型将训练集中数据的不同特征视为向量——由多个数字组成的数学结构。这些模型的大部分秘密在于它们能够以有意义的方式将现实世界的信息转换为向量,并确定哪些向量彼此相似,从而使模型生成类似于以下内容的输出:但与其训练集不完全相同。
有许多不同类型的人工智能模型,但请记住,各种类别不一定是相互排斥的。有些模型可以属于多个类别。
如今最受公众关注的人工智能模型类型可能是大型语言模型(LLM)。LLM 基于变压器的概念,该概念首次在Google 研究人员 2017 年发表的论文《 Attention Is All You Need 》中引入。转换器从长文本序列中获取含义,以理解不同的单词或语义组件如何相互关联,然后确定它们彼此相邻出现的可能性有多大。GPT 模型是 LLM,T代表变压器。这些转换器在一个庞大的自然语言文本语料库上 无监督地运行,这个过程称为预训练(即 P在 GPT 中),然后由人类与模型交互进行微调。
扩散通常用于生成图像或视频的生成人工智能模型。在扩散过程中,该模型向图像添加噪声(基本上是随机的),然后迭代地缓慢删除它,同时检查其训练集以尝试匹配语义相似的图像。扩散是 AI 模型的核心,这些模型执行文本到图像的魔法,例如稳定扩散和 DALL-E。
生成 对抗网络(GAN)基于一种强化学习,其中两种算法相互竞争。人们根据从大数据集得出的概率生成文本或图像。另一种是具有辨别力的人工智能,它评估该输出是真实的还是人工智能生成的。生成式人工智能反复尝试“欺骗”辨别式人工智能,自动适应有利于成功的结果。一旦生成型人工智能持续“赢得”这场竞争,辨别型人工智能就会受到人类的微调,整个过程重新开始。
这里要记住的最重要的事情之一是,虽然训练过程中有人工干预,但大多数学习和适应都是自动发生的。需要进行很多很多次迭代才能使模型产生有趣的结果,因此自动化至关重要。这个过程的计算量相当大,最近人工智能能力的爆炸性增长很大程度上是由 GPU 计算能力和在这些芯片上实现并行处理技术的进步推动的。
创建和训练生成式人工智能模型所需的数学和编码非常复杂,远远超出了本文的范围。但如果你与这个过程的最终结果模型进行交互,这种体验绝对是不可思议的。您可以让 DALL-E 制作出看起来像真正的艺术品的东西。您可以与 ChatGPT 进行对话,就像与另一个人进行对话一样。研究人员真的创造了一台思考机器吗?
从事Watson AI产品工作的前 IBM自然语言处理主管Chris Phipps表示不会。他将 ChatGPT 描述为“非常好的预测机器”。
它非常擅长预测人类会发现什么是连贯的。它并不总是连贯的(大部分是连贯的),但这并不是因为 ChatGPT “理解”。事实恰恰相反:消费输出的人非常擅长做出我们需要的任何隐含假设,以使输出有意义。
菲普斯也是一名喜剧表演者,他将其与一种名为“Mind Meld”的常见即兴游戏进行了比较。
两个人各自想到一个词,然后同时大声说出来——你可能说“靴子”,我说“树”。我们完全独立地想出了这些词,起初,它们彼此没有任何关系。接下来的两名参与者尝试找出这两个词的共同点并同时大声说出来。游戏继续进行,直到两个参与者说出同一个词。
也许两个人都说“伐木工人”。这看起来很神奇,但实际上是我们用人脑来推理输入(“引导”和“树”)并找到联系。我们从事的是理解工作,而不是机器。ChatGPT 和 DALL-E 发生的事情比人们承认的要多得多。ChatGPT 可以写一个故事,但我们人类做了很多工作才能让它有意义。
我们可以向这些人工智能模型提供的某些提示将使菲普斯的观点变得相当明显。例如,考虑一下谜语“一磅铅和一磅羽毛哪个更重?” 答案当然是它们的重量相同(一磅),尽管我们的直觉或常识可能告诉我们羽毛更轻。
ChatGPT 将正确回答这个谜语,您可能会认为它会这样做,因为它是一台冷酷的逻辑计算机,没有任何“常识”来解决这个问题。但这并不是幕后发生的事情。ChatGPT 没有从逻辑上推理出答案;它只是根据对一磅羽毛和一磅铅的问题的预测来生成输出。由于它的训练集包含一堆解释谜语的文本,因此它会组装正确答案的一个版本。
但是,如果您询问 ChatGPT两磅羽毛是否比一磅铅重,它会自信地告诉您它们的重量相同,因为根据其训练集,这仍然是有关羽毛和铅的提示的最有可能的输出。告诉人工智能它错了,然后看着它陷入困境,这可能很有趣;我让它为自己的错误向我道歉,然后建议两磅羽毛的重量是一磅铅的四倍。
人工智能艺术的一个值得注意的怪癖是,它经常代表具有极其奇怪的手的人。“奇怪的手怪癖”正在成为艺术作品是人工生成的一个常见标志。这种奇怪的现象让我们更深入地了解生成式人工智能是如何工作(和不工作)的。从 DALL-E 和类似视觉生成人工智能工具提取的语料库开始:人们的照片通常可以很好地看到他们的脸部,但他们的手通常被部分遮挡或以奇怪的角度显示,因此你无法看到所有的信息手指一下子。此外,手的结构非常复杂,对于人们来说,甚至是训练有素的艺术家来说,绘制它们是出了名的困难。DALL-E所不具备的一件事所做的就是根据训练集中的各种 2D 描述来组装一个精致的 3D 手模型。事情不是这样的。DALL-E 甚至不一定知道“手”是一个需要推理的连贯事物类别。它所能做的就是根据它拥有的图像尝试预测相似图像可能是什么样子。尽管有大量的训练数据,但这些预测常常达不到要求。
菲普斯推测因素之一是缺乏负面输入。文章来源地址https://www.toymoban.com/diary/problem/365.html
据我所知,它主要训练正面的例子。他们没有给它一张七指手的照片并告诉它“不!手牌的坏例子。不要这样做。” 所以它预测的是可能的空间,而不是不可能的空间。基本上,从未被告知不要创造七指手。
还有一个因素是,这些模型并不认为他们正在绘制的图纸是一个连贯的整体;相反,它们组装了一系列可能彼此接近的组件,如训练数据所示。DALL-E 可能不知道一只手应该有五个手指,但它确实知道一个手指可能与另一个手指直接相邻。所以,有时,它只是不断地增加手指。(用牙齿也能得到同样的结果。)事实上,即使是对 DALL-E 过程的这种描述也可能过于拟人化了。正如菲普斯所说:“我怀疑它甚至没有手指的理解能力。更有可能的是,它正在预测像素颜色,而手指颜色的像素往往紧邻其他手指颜色的像素。”
这些例子向您展示了生成式人工智能的主要局限性之一:业内人士所说的“幻觉”,这可能是一个误导性的输出术语,即根据使用它的人的标准,它是错误的或不正确的。当然,所有计算机系统偶尔都会产生错误,但这些错误尤其成问题,因为最终用户不太可能轻易发现它们:如果您向生产型人工智能聊天机器人询问问题,您自己通常不会知道答案。您也更有可能接受 ChatGPT 和其他类似模型生成的自信、完全惯用的散文形式的答案,即使信息不正确。
即使生成式人工智能可以产生无幻觉的输出,也存在各种潜在的负面影响:
廉价且简单的内容创建:希望现在大家已经清楚,ChatGPT 和其他生成型人工智能并不是能够进行创造性输出或洞察力的真正大脑。但事实是,并非所有书写或绘制的内容都需要特别有创意。许多高中或大学本科水平的研究论文仅旨在综合公开数据,这使它们成为生成人工智能的完美目标。事实上,合成散文或艺术现在可以以超人的规模自动产生,可能会产生奇怪或不可预见的结果。例如,垃圾邮件艺术家已经在使用 ChatGPT 编写网络钓鱼电子邮件。
知识产权:谁拥有人工智能生成的图像或文本?如果受版权保护的作品构成人工智能训练集的一部分,那么人工智能在生成合成数据时是否会“抄袭”该作品,即使它没有逐字复制?这些都是棘手的、未经检验的法律问题。
偏见:生成式人工智能生成的内容完全由其训练的基础数据决定。由于这些数据是由人类产生的,存在各种缺陷和偏见,因此生成的结果也可能存在缺陷和偏见,特别是如果它们在没有人类护栏的情况下运行。创建 ChatGPT 的 OpenAI 公司在将模型开放给公众使用之前,在该模型中设置了保护措施,以防止其做出使用种族歧视等行为;然而,其他人声称这些安全措施代表了他们自己的偏见。
功耗:除了令人头疼的哲学问题之外,生成式人工智能还引发了一些非常实际的问题:一方面,训练生成式人工智能模型需要大量的计算密集型工作。这可能会给试图进入这一领域的公司带来巨额云计算费用,并最终提出一个问题:增加的功耗(以及最终的温室气体排放)是否值得最终结果。(我们还看到这个问题与加密货币和区块链技术有关。)
尽管存在这些潜在问题,但生成式人工智能的前景不容忽视。ChatGPT 能够从庞大的数据集中提取有用信息以响应自然语言查询,这让搜索巨头垂涎欲滴。微软正在测试自己的人工智能聊天机器人,称为“悉尼”,尽管它仍处于测试阶段,而且结果显然是好坏参半。
但菲普斯认为更专业的搜索类型非常适合这项技术。“我在 IBM 的最后一个客户是一家大型国际航运公司,该公司还拥有价值数十亿美元的供应链咨询副业,”他说。
他们的问题是,他们无法足够快地雇用和培训入门级供应链顾问——他们正在失去业务,因为他们无法快速回答简单的客户问题。我们构建了一个聊天机器人,帮助入门级顾问搜索公司丰富的供应链手册和演示文稿库,然后将这些手册和演示文稿转给客户。
如果我今天要为同一个客户构建一个解决方案,就在我构建第一个解决方案一年后,我将 100% 使用 ChatGPT,它可能会远远优于我构建的解决方案。该用例的优点在于仍然有专家在循环中仔细检查答案。这减轻了很多道德问题。专为专家设计的智能搜索工具有着巨大的市场。
其他潜在用例包括:
代码生成:生成式人工智能可以为我们编写计算机代码的想法已经流传多年。事实证明,像ChatGPT 这样的大型语言模型可以理解编程语言以及自然口语,虽然生成式人工智能可能不会在不久的将来取代程序员,但它可以帮助提高他们的生产力。
廉价且简单的内容创建:尽管这是一个问题(上面列出),但它也是一个机会。编写垃圾邮件的人工智能也可以编写合法的营销电子邮件,并且人工智能文案初创公司呈爆炸式增长。当涉及不需要太多创造力的高度结构化的散文形式(例如简历和求职信)时,生成式人工智能会蓬勃发展。
工程设计:视觉艺术和自然语言在生成人工智能领域受到了很多关注,因为它们很容易被普通人掌握。但类似的技术正被用于设计从微芯片到新药的一切事物,并且几乎肯定会很快进入IT 架构设计领域。文章来源地址:https://www.toymoban.com/diary/problem/365.html
生成式人工智能肯定会颠覆一些行业,并改变或消除许多工作岗位。然而,像这样的文章将继续由人类撰写,至少目前是这样。CNET 最近尝试将生成式人工智能用于撰写文章,但这一努力因一波幻觉而失败。如果你担心,你可能想从事明天的热门新工作:人工智能提示工程。