“ 谷歌的多模态AI系统Gemini正在小范围内测,这标志着它很快会对外开放。Gemini集成了文本、图像等多种模式,运用了AlphaGo中的强化学习等技术,目标是在规划、记忆、多模态方面进行创新。Gemini可能会成为继ChatGPT系列后又一个里程碑式的产品。”
01
—
这两天看到谷歌的多模态大模型Gemini正在小范围的企业内测消息,了解了一下:
谷歌已经允许一小部分公司使用 Gemini 软件的早期版本,意味着谷歌即将将其纳入消费者服务,并通过公司的云计算服务出售给企业。
最早在5月份时,谷歌官方宣称从头开始训练Gemini多模态大模型,表示Gemini在使用工具和集成 API 方面表现出色,并致力于实现在记忆(现在ChatGPT是没有记忆的)和规划方面的创新。
在7月份的时候,有新闻报道:谢尔盖·布林 (SERGEY BRIN,Google公司联合创始人) 重返谷歌工作岗位,与人工智能研究人员一起工作,协助构建 Gemini 系统。
该模型是在 Google Brain 和 DeepMind 合并之后开始研发的,将具有像 GPT-4 一样的万亿参数。
初代的Gemini应该是在TPUv4上训练的。后续的迭代已经开始在基于TPUv5的pod上进⾏训练,算力高达~1e26 FLOPS,这比训练GPT-4要大5倍。
02
—
DeepMind 联合创始人兼首席执行官 Demis Hassabis 表示,他们的工程师正借鉴 AlphaGo 的技术研发一款名为 Gemini 的人工智能系统,其实力将超越 OpenAI 的 ChatGPT 背后的系统。
Google DeepMind Gemini 是什么?
Google DeepMind Gemini 是一款巨型人工智能语言模型,从一开始就被设计为多模式,集成文本、图像和其他数据类型。Gemini的目标是将AlphaGo中的技术与语言模型相结合。
AlphaGo 是 DeepMind 开发的一个人工智能程序,它在围棋游戏中击败了人类围棋高手。AlphaGo依托DeepMind首创的强化学习技术,该技术让软件通过反复尝试并接收关于表现的反馈来学习解决棘手问题,从而做出行动决策。它还运用了一种名为树搜索的方法来探索和记忆棋盘上可能的动作。
与AlphaGo类似,Gemini 将使用算法的深度学习和强化学习技术来解决复杂问题。Gemini的开发团队希望将AlphaGo中的强化学习和树搜索技术应用于语言模型中,从而为系统添加新功能,例如规划和问题解决。
与AlphaGo中所运用的技术相结合,旨在为系统赋予诸如规划或解决问题等新功能。从宏观层面上看,Gemini 融合了 AlphaGo 类系统的诸多优势以及大型模型令人叹为观止的语言能力。
不仅如此,Gemini 还把GPT-4等大型语言模型的文本功能与基于文本描述创建人工智能图像的能力结合在一起,类似于人工智能图像生成器Midjourney和Stable Diffusion。
所以它可能是会真正意义上的第一个多模态大模型。
Gemini的目标是在气候变化、医疗保健、航空、食品和农业等领域中提供解决方案。它将通过处理文本数据来提高这些领域中的效率和准确性。
Gemini的开发费用可能达到数千万甚至数亿美元。
03
—
Gemini特性
Gemini 可以使用工具和 API。
Gemini 可能是迄今为止创建的最大的语言模型,可能超过拥有超过 1750 亿个参数的 GPT-3 的大小。
Gemini 是一个“系列型号”,将提供不同的尺寸和功能。
Gemini 可能会利用记忆、对谷歌搜索等来源进行事实核查,并改进强化学习来提高准确性并减少危险的幻觉内容。
Gemini 的目标是将规模与创新结合起来,将规划和记忆结合起来还处于早期探索阶段。
Gemini 可能会采用检索方法来输出整个信息块,而不是逐字生成,以提高事实一致性。(现在ChatGPT这一代的模型还是一个一个的吐字模式。)
Gemini 建立在 DeepMind 的多模态工作之上,例如图像字幕系统 Flamingo。
而之前《谷歌 Bard 深夜更新:支持中文、语音输入/播报、代码导出、对话分享》中提到的Bard,这样的对话式人工智能系统“不是最终状态”,而只是初级版本。
对于“ Google Gemini 可能会超越 GPT-4。”的说法,OpenAI 表示了不屑一顾。
从媒体不断发布关于 Gemini 的消息,以及向谷歌以外的一小部分开发者提供了对 Gemini 的早期访问权限来看,估计这个大模型开放给更多用户也快了,可能会发布测试版并集成到 Google Cloud Vertex AI 等服务中。
参考资料
https://zhuanlan.zhihu.com/p/656514116
https://zhuanlan.zhihu.com/p/653023679
https://www.searchenginejournal.com/google-gemini-what-we-know-so-far/496494/#close
阅读推荐:
更胜ReACT一筹,让大模型在解决问题中学会“触类旁通”的开创性的经验学习ExpeL策略ExpeL
国外报告90%的AI类产品公司已经实现盈利,而国内大模型和AIGC的访谈说太卷了
你好,我是百川大模型|国内可开源免费商用Baichuan2揭秘
人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图
REACT:在语言模型中协同推理与行动,使其能够解决各种语言推理和决策任务。
拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。