与ChatGPT面世后的疑惑类似,视频生成大模型Sora发布之后,人们依然在问同样的问题:为什么OpenAI能做出这样的创新成果?
要知道,世界上不乏人才密集、有钱、有数据的公司,但能持续做出划时代产品的团队寥寥无几。可以肯定的是,除了OpenAI团队中关键少数的技术远见,这些重量级产品的实现与他们的组织运作密不可分。
那么,这些人到底是如何被组织起来的,他们有什么样的组织形态和文化?
在Lenny Rachitsky主持的最新播客节目中,OpenAI开发者关系主管Logan Kilpatrick从内部视角深入讲述了OpenAI的运作机制以及决策模式。此外,他还就人们如何在工作和生活中运用ChatGPT、GPTs以及GPT-5前瞻做了介绍。
Logan目前主要支持开发者利用OpenAI的API和ChatGPT进行开发的工作。加入OpenAI之前,Logan曾担任苹果的机器学习工程师,并为NASA的开源政策提供建议。
(以下内容由OneFlow编译发布,转载请联系授权。视频:https://www.youtube.com/watch?v=XkMbkWG2ca4)
来源 | Lenny's Podcast
OneFlow编译
翻译|杨婷、宛子琳
1
Lenny:尽管董事会与Sam Altman(OpenAI CEO)之间的戏剧性事件已经过去好几个月了,但我很好奇该事件发生时OpenAI的内部情况。
Logan:当时正值感恩节,是非常难熬的一周。自ChatGPT推出以来,OpenAI一直在努力推进,而当时本应是整个公司近一年以来,首次彻底放松的一周。
就我个人来说,我非常期待能和家人团聚,共度时光。周五下午,我们得到公司发生变动的消息,所有人都感到十分震惊,大家一直十分信赖Sam、Greg以及领导团队,所以这个消息非常出乎意料。就公司文化而言,我们一直秉持透明开放的原则,因此当公司出现问题或发生变动时,我们往往会得到相关消息,而这种情况之前从未发生过。
我们公司的总部在旧金山,但我并没有常驻旧金山,我很庆幸这场变动发生在感恩节期间,当时公司很多人都离开了旧金山,回到了各自家里,因此我并非是唯一不在场的人,这让我稍感安慰。
变动发生以后,最让我惊讶的是大家都迅速恢复了工作状态。感恩节后的周一早上,因为需要与团队当面交流工作上的事情,我飞到了旧金山。走进办公室时,我本以为公司氛围可能会有所不同,但实际上大家都专注于工作,这彰显了团队的职业素养和对公司使命的热情。面对如此变动,很多公司都难以在如此短的时间内调整好状态,而我们公司做到了,这很难得。
Lenny:因为大家共同经历了这一特殊时期,我感觉这件事也拉近了团队距离,使团队关系变得更加紧密。除此之外,公司有何新的变化?
Logan:对我来说,我很感谢此次事件发生的时间点。尽管目前OpenAI拥有大量客户,许多企业在OpenAI的基础上构建了业务,如果发生了不好的事情,肯定会影响我们的客户。就世界范围而言,即使OpenAI消失了,其他人也会继续朝着通用人工智能的方向前进。
我很庆幸此次事件发生在风险相对较低的时候,如果类似的事情发生在未来五到十年,而我们没有经历即将发生的工作转型和其他变化,情况可能会更糟。
ChatGPT发布后,公司以极快的速度迅速发展,这期间也加入了很多新成员,此次事件无疑增强了团队凝聚力。在我加入公司时,ChatGPT和GPT-4的发布是团队成员之间的纽带,但对于后来加入公司的新成员,此次事件也许就是新的纽带。因此,我认为公司各部门之间已经有了一定的凝聚力,我很期待我们能够齐心协力,迎接GPT-5的到来。
2
团队做事风格:高效执行、紧迫感、实时交流
Lenny:你之前就职于苹果和NASA,这两者的运转速度都相对缓慢。而OpenAI以超高的效率而著称(或许对一些人来说它运转、变动过于迅速),例如董事会内讧事件。我很好奇,OpenAI如何快速构建及发布产品,且保持极高的水准?你们是否存在一种工作流程或方法是其他公司能够学习的?
Logan:没错,对于OpenAI来说,公司的高效运行需要许多微妙的权衡和紧张的气氛。以苹果和NASA这种老牌机构为例,随着时间的推移,它们设立了许多额外的审查和平衡措施,效率越来越低下,但OpenAI是一家年轻的新公司,基本没有那些制度上的遗留障碍。
我认为,最重要的一点是,招揽那些具有高效执行力和紧迫感的人才。这在Sam的推特中也有提到,假如我今天要招聘五个人,这两个特征将是我最看重的。如果你拥有高效执行力的人才,就不需要得到所有人的共识才能推进工作进度,因为你所信任的、执行高效的手下可以直接解决问题,我十分确定,这一点是最重要的。
总而言之,我在OpenAI共事的人身上看到了这一点,他们做事非常高效,只要发现问题就去解决。例如,只要他们从客户那里听到公司的产品存在bug,就已经在推动着手解决方案,而不是像其他传统公司一样受限于繁文缛节,白白等待,“我们需要与这七个不同的部门核实一下,看看他们对此有什么反馈”,而具有高效执行力的人会直接解决问题,这一点太棒了,我很荣幸能参与其中。
Lenny:太酷了。我真的很喜欢这两个特质,这是很新颖的视角。还有什么其他例子能够说明高效执行力和紧迫感?
Logan:OpenAI发布的助手API是一个很好的例子。我们一直从开发者那里收到反馈,他们希望在我们现有的API上提供更高层次的抽象。于是团队中的部分成员聚在一起,简单地制定了一个计划,然后很快就齐心协力,最终构建了现在支持众多助手应用程序的落地API。
OpenAI的流程并非自上而下:上级下发任务,“让我们完成这五件事”,然后 “好的,交给团队去做吧。” 而是员工真正看到这些问题的出现,并知道他们可以作为一个团队迅速解决这些问题。
Lenny:除了高效执行和紧迫感,我想其中还有一部分原因可能是你们雇佣了非常聪明的人,这一点不言而喻,还有其他方面吗?
Logan:我认为,使用Slack对OpenAI来说也十分重要,也许这一点存在争议,可能有些人不喜欢Slack,但OpenAI的企业文化确实非常依赖Slack,在Slack上实现的实时沟通至关重要。
我喜欢在Slack上@不同团队的不同成员的功能,这能让所有人都参与其中。即使你远程工作或者在不同的团队或不同的办公室。每位员工都经常挂在Slack上,所以公司文化的很多方面也都融入了Slack,这使得我们能够非常快速地进行协作,有时发送Slack消息甚至比走到某人的办公桌旁更快。
我看了最近Sam和比尔·盖茨的采访,Sam提到Slack是他手机上使用最频繁的应用,“我甚至不再查看手机上的时间,因为我不想知道自己在Slack上花费了多少时间”,但我相信Salesforce的人正在查看数据,他们可能认为,“这正是Slack想要的效果”。
3
Lenny:那么在OpenAI内部是如何进行规划的?我想象中你们团队仍然会有路线图、优先事项和目标等等,这些工作通常如何进行,以便能实现这样的目标?
Logan:这是OpenAI中较为具有挑战性的部分之一。每个人都希望我们能提供全面服务,尤其是在ChatGPT等产品被广泛使用的今天,鉴于OpenAI的API规模之大和使用之广,人们会直接来找我们:“嘿,我们想要所有这些服务。”
对此,我认为我们会考虑一些核心的指导原则。首先是我们的使命,这件事是否能对我们实现通用人工智能(AGI)有实质性帮助?因此,我们十分关注眼前这个潜在的诱人奖励,比如优化用户参与度等等。也许这确实能够帮助我们更快实现AGI,我认为,这一直是OpenAI解决任何问题的首要考量因素。
其次,我们在开发者方面十分重视可靠性,将其视为核心原则。比如,“如果我们有额外的API来完成所有这些很酷的事,比如新的端点、新的模态、新的抽象,那非常棒,但我们是否在API上为客户提供了稳定可靠的体验?”这通常是开发者考虑的首要问题。
对此,我认为OpenAI有时做得还不够好,我们一直在考虑做很多其他的事,但确实将焦点和优先级放在产品的可靠性上。归根结底,如果用户无法稳定可靠地使用产品,那么拥有再好的功能也无济于事。因此,早日实现AGI以及注重产品的稳定性是OpenAI核心原则。
除了上述的决策原则,我认为OpenAI实际的规划流程也相当标准。我们聚在一起,制定H1、Q1的目标,并为之共同努力。
事物会随着时间的推移发生变化,也许你认为我们会完成一些高层次的任务,比如发布新的模型、添加新的模态等等,但真正重要的是,通过机制来更新我们对世界和对自身目标的理解,在如今人工智能领域的快速发展的背景下,我们所熟知的一切都在发生变化。
Lenny:有趣的是,H1或Q1目标听起来很像其他大多数公司的做法。你们有没有类似于OKR之类的的指标和目标,还是以推出产品为导向?
Logan:我认为这是更高层次的问题。实际上,我并不认为OpenAI是一个重视OKR的公司。我并不了解我们为何不使用OKR,OKR是否仍然是普遍的行业标准?
Lenny:是的。许多公司仍然使用并推崇OKR,不过也有很多公司不喜欢OKR。OpenAI并非一个以OKR为驱动的公司,这一点并不令我感到惊讶。
沿着这一思路,OpenAI如何衡量所推出的产品是成功的?你们的最终目标是实现AGI,那么有没有一种方式来追踪是否越来越接近这一目标?当你们推出GPT Store或助手之类的产品时,除了用户采用率之外,你们还关注什么指标以衡量是否达到预期的目标?
Logan:没错,采纳率是一个很有效的指标。如果以收入为核心,在我们的平台上构建应用程序的开发者数量等方面存在许多指标。这些指标我不便进行深入介绍,但我认为它们实际上都是通往其他目标的抽象。即使我们的目标之一是获得收入,但收入本身并不是真正的目标。收入是获取更多计算资源的盘缠,这实际上有助于我们获得更多的GPU,以便训练出更好的模型并实现我们的终极目标。
因此,即便我们讨论OpenAI的某个目标,大家听到时都会下意识认为,"OpenAI只是想赚钱",但实际上,赚钱只是为了获得更好模型,只有这样才能实现我们的最终使命。
4
OpenAI重大创新的来源
Lenny:OpenAI在哪些方面做得很好,从而能够推动创新,而不是拖累新的重大想法的产生?
Logan:外界看到的OpenAI的大部分增长都集中在我们面向客户的角色,我们的工程角色提供了ChatGPT等基础设施。而研究团队有意保持较小规模,是他们种下了OpenAI大部分创新的种子。
关于这一问题有很多讨论。我刚看到OpenAI的一位研究人员发的帖子,他谈到了GPU受限的问题,这对于OpenAI的研究人员来说是事实,对于其他任何地方的研究人员也是如此,每增加一位新的研究人员实际上都会导致研究团队的净生产力下降,除非他以一种深刻的方式提升了其他人的水平,从而提高了总体效率。
如果只是添加一位将会着手完全不同研究方向的研究员,就必须与他共享你的GPU,而其他人实验进展就变得更慢了。因此,这是研究人员面临的一个非常微妙的权衡。我们在一个GPU受限的世界,希望不会一直处于这种状态。
产品人员并不会面临这个问题……如果我将另一个工程师添加到API团队或某些ChatGPT团队,实际上可以编写更多的代码,完成更多的工作,这能够提高每个人的净利益。
Lenny:目前OpenAI团队有多少人?
Logan:我记得去年年底最后一次公开的数字约780人,但OpenAI仍在迅速扩张,团队的增长速度非常快,所有的工程团队和产品经理团队都在招聘。
5
Lenny:最近OpenAI上线了GPT商店,人们可以搭建自己的小型开放ChatGPT,并从中盈利,这对OpenAI来说是一个重大事件,能分享一下GPT商店目前的发展情况吗?
Logan:以往分享ChatGPT用例时,我们需要先启动与模型的对话,输入我们想做的事情的提示,在模型开始响应之前发送该链接,而现在,我们可以直接完成与模型的对话。GPT商店允许用户将重要上下文直接放入模型,使其他人可以与定制版本的ChatGPT进行交流。目前这个商店是免费的。
我们可以上传文件、自定义指令以及各种工具,比如可以进行数学运算的代码解释器、图像生成等。此外,还有一些适用于开发人员的高级用例,比如连接Notion API或Gmail等外部API。对于GPT商店的众多功能,最让我激动的是:即使是非开发人员也能通过为模型提供足够的上下文来解决挑战性问题。上下文对于GPT商店的重要性可见一斑,有了足够的上下文,GPT商店能完成更多有趣挑战。
随着应用商店的推出,人们可以从使用他们的GPTs的用户处获得报酬,这将会为很多人带来新机遇。期待能持续提升GPT功能,使GPT赋能不会编程的人。作为一名软件工程师,连接Notion API或Gmail API到我的GPT也并非易事,期待未来我们能一键登录Gmail,让GPT自动获取相应权限。我相信,随着时间推移,这些功能会逐步实现,但目前GPTs最大的价值仍然是定制提示词,这是GPTs的一大卖点。
Lenny:是否有其他比较惊艳你的GPT用例?
Logan:Zapier对GPTs的利用是我能想到的最佳用例。尽管我并不确定Zapier的GPT是如何打包的,但作为第三方开发者,我们可以在不懂编程的情况下将Zapier与自己的GPT集成在一起。目前,Zapier提供了大概5000种连接方式,我们可以将这些连接方式集成到自己的GPT中,以实现各种功能。通过Zapier平台,尤其是对于非开发者来说可以解锁许多新功能,对此我感到十分激动。
Lenny:作为一名产品经理,根据我多年来的经验,在每次有关产品新功能的头脑风暴中,总会有人建议构建聊天机器人来解决问题。现在聊天机器人成为了现实,发挥了巨大的作用,很多人都在基于OpenAI的API构建聊天机器人。
为避免与OpenAI竞争,人们往往会考虑你们不会涉足的领域以及OpenAI能够提供帮助的领域,这样就无需担心将来OpenAI会构建与之相竞争的产品。人们应如何避免受到OpenAI的冲击?
Logan:OpenAI关注的是具有普适性的用例,例如通用推理能力、编码能力和写作能力等,当涉及到一些垂直领域的应用时,情况就会有所不同,例如人工智能在法律领域的用例Harvey,该公司正在构建定制模型和工具,以帮助律师和相关人员处理法律案件。在法律方面,OpenAI的模型可能永远比不上Harvey,因为我们的目标和任务是解决一些非常普遍的用例,然后人们可以在此基础上微调,并构建自己的定制用户界面和产品功能。
我非常理解那些正在构建通用产品的公司,也经常和正在构建通用助手、通用智能体等产品的开发人员交流,他们有很多很棒的想法。我认为,这些公司面临的挑战是,他们最终会在这些领域与我们公司直接竞争,尽管有很大的成功机会,但同时也要做好应对OpenAI发布通用智能体等产品的准备,因为OpenAI目前正在使用GPTs构建这样的产品。
相对而言,我们不会推出特定垂直领域的产品,比如AI销售智能体,这不符合公司的发展方向。对于那些专注于特定领域的公司,他们可以深耕该领域,并利用我们的模型,打造自己的竞争优势。
6
Lenny:目前出现了一种全新技能——提示工程。我曾看到我投资的一家初创公司招聘提示工程师,这是一个新兴职业,很多人会对此大为震惊。我知道这个职业不会持续太久,理论上讲,当人工智能发展到足够智能的程度,我们就不再需要思考如何更好地为模型编写提示了。人们应该如何更好地为ChatGPT或一般的API编写提示?
Logan:这是一个很有趣的领域,我期待看到人们在这一领域做更多实证研究,很多人都是在凭感觉编写提示,现在的最佳实践在某种程度上可能并不好。
我认为,提示工程出现的原因是模型的训练方式,它们倾向于根据提问方式回答问题,输入的提示会影响给出的回答,输入非常基础的问题,会得到非常基础的回答。实际上,这也适用于人际交往,比如当提问“你今天怎么样?”时,人们会给出“还不错”等回答,这类回答非常笼统,没有任何细节。但如果我们比较熟悉对方,与对方有一些交情,那么我们会提问“嘿,Lenny,你今天过得怎么样?上次播客做得怎么样?”等等,这类提示包含更多内容,有助于我们给出更具体的回答。这就是提示工程,是一种非常人性化的东西。
与人交流时,我们需要提示工程,以便进行有效沟通,获得最佳输出。同样的情况也适用于模型。在使用看似非常智能的系统时,我们默认这些系统具有所需的全部上下文信息,但实际情况正好相反。这些系统拥有人类级别的智能,但却没有任何背景信息。它们不了解提问者,对提问的内容毫不知情,若没有输入上下文,系统只能给出非常笼统的回答。
我们已经找到了有助于解决这个问题的方法,并且已经应用于图像生成模型DALL-E。当DALL-E接收到类似“我想要一张海龟图片”的请求时,由于DALL-E是在具有超高保真度的示例上训练的,根据训练方式,它会接受这个描述,并生成一张高保真度的图片,比如生成一个带壳的海龟,图片背景是绿色的,水中有睡莲等等。
我们也可以将上述方法应用于文本模型。试想这样一个世界:当我们向ChatGPT输入“帮我写一篇关于AI的博客”时,ChatGPT会自动生成具有更高保真度的描述,比如“我要生成一篇关于AI的文章,文章需要谈及不同技术之间的权衡,还要包含一些AI用例,并且需要参考最新文献等等”,完成以后,人们可以在此基础上修改,从而得到满意的结果。这里的最根本问题是,我们并不想一个一个敲键盘向系统描述心中所想,而AI系统可以帮助我们解决这一问题。
Lenny:所以目前你的建议是给模型提供更多背景信息。模型本身不会要求我们提供上下文,它只会简单粗暴地给出回答。
Logan:语言模型非常渴望回答人们的问题,但因为缺乏足够的上下文,模型很难给出有价值的回答,因此上下文非常重要,借用一句话,我们甚至可以说“上下文就是一切,是唯一重要的事”,提供足够的上下文信息是获得有意义回答的关键。
Lenny:还有其他能够更好地帮助人们利用ChatGPT的建议吗?
Logan:模型的表现取决于性能提升程度,有很多可以帮助我们提升性能的小细节,比如添加表情符号、给模型一些时间休息等等。
加入笑脸符号的确会产生影响,但影响程度相对较小,可能会使模型的性能提高1到2个百分点。这种提升对于生成更长的文本或整个叙事可能有显著影响,但对于长度较短、更为简洁的文本来说,这种影响可能并不明显。
7
Lenny:目前为止,人工智能领域让你感到最惊讶的是什么?
Logan:我最感兴趣的是围绕人工智能的新接口,例如Rabbit R1和TL Draw。Rabbit R1是一款消费者硬件设备,而TL Draw则是由一家名为TL Draw的公司推出的绘图产品。
我对TL Draw正在构建的内容非常感兴趣。目前,TL Draw正在构建无限画布(infinite canvas)。试想一下,在日常生活中与AI交互时,我们可以打开无限画布,其中AI已经填充了所需的全部细节,例如文件和视频参考等等。相比聊天框,这种互动方式更为直观,更有意义,期待更多人采用这种新型的AI交互方式。
Lenny:人们对你们推出的工具应该有怎样的期待?
Logan:未来大家可以期待多模态方面的持续改进。我认为,ChatGPT将继续推动所有可能的用户体验。三个月前,ChatGPT实际上只是输入文本,再输出文本,但现在你可以切换到语音模式,可以生成图像甚至拍照。因此,通过ChatGPT,用户与AI互动的方式会不断扩展,GPTs是我们迈向智能体未来的第一步。
再次强调,当你使用一个GPT时,你发送一条消息,几乎立即就会收到答复,然后这一互动就结束了。我认为,随着GPT的不断完善,你也许能够直接告诉GPT:“嘿,去做这件事,完成后通知我。我现在不需要答案,希望你能花时间认真思考。”如果你回顾这种互动方式,与人类的互动方式类比,这实际上就是人类的做法。当我要求某人为我做一些有意义的事情时,并不指望他们立即做出回应并立即给我答案。因此,我认为进一步推进这些体验将为人们开启更多的价值。
最后一个要点是,GPTs将成为接下来几亿人链接ChatGPT和AI的机制。如果你曾与不熟悉人工智能领域的人交谈,很多人都没有听说过ChatGPT,但如果他们听说过,尝试使用ChatGPT后会说:“我不太清楚应该用这个白板来做什么。我自己基本上可以做任何事情,不知道ChatGPT怎样解决我的具体问题。”但我认为,GPTs的很酷之处在于,你可以将其打包成:“这是一个非常具体的问题,AI可以很好地解决它,”然后,我可以与你分享这一经验,现在你可以尝试使用GPT,让它真正帮助你解决问题,然后他就会说:“哇,它为我做了这件事。我应该花时间研究其余的五个问题,看看AI是否能够提供解决方案。”所以我认为,更多的人会开始在线上使用这些工具,因为细分领域的垂直工具将极大地提高其工作效率。
Lenny:最后这种情况是一个典型的横向产品问题,模型是可以做很多事,但人们不知道究竟应该为他们做什么具体的任务。所以这非常合理,我们应该更多地以模板为导向,针对用例进行具体化,以帮助更多人入门。这是很多SaaS产品普遍存在的问题。
Lenny:关于GPT-5,人们有很多关于其更优版本的猜测,对GPT的发展有着极高的期待。那么,什么样的应用可能在GPT-5的世界中得到更强的赋能?GPT-5只是单纯的更快、更智能?
Logan:如果大家查看过我们在去年三月份发布的GPT-4技术报告,当时GPT-4刚推出,可以基于将要投入其中的计算量,我们能够可靠地预测该模型的能力。对此,OpenAI进行了一项研究,以展示我们的预测结果和实际结果之间的差异。因此我认为,作为一个对技术感兴趣的人,观察这一现象(预测性能与实际性能存在差异)是否会延续到GPT-5会十分有趣,希望我们在GPT-5推出时能获得一些这方面的相关信息。
你可能也会得出一些观察结果。GPT-4刚推出时,人们对此的的共识是,“一夜之间,一切都改变了。GPT-4改变了世界,改变了一切。”而随着时间推移,我们逐渐回归了现实,“这就是一个非常有效的工具,能够更好地帮助我解决问题。”毫无疑问,人们应该用这样的眼光看待所有模型的进步。就像GPT-5,它肯定会非常强大,并能够解决一些全新的问题。我们希望它响应更快,在各方面性能都更强,但从本质上说,世界上依然存在着同样的问题,而现在你只是拥有了一个更强大的工具来解决这些问题。
回到垂直应用案例,我认为,解决具体用例的人将能够更有效地做到这一点。人们不应抱有这种不切实际的期望:GPT-5将能够在我的卧室里翻跟头,同时为我编写所有代码并与我妈妈通电话。它只会是一个非常有效的工具,与GPT-4非常类似,并且也会很快变得常态化。如果你能够规划一个人们非常快速地适应这些工具的世界,这实际上是一个优势,而假设这件事绝对会改变一切,是这些工具推出时的错误心态。
试用图片/视频生成加速引擎OneDiff: github.com/siliconflow/onediff