在1982年经典科幻电影《银翼杀手》中,仿生人瑞秋因为被植入记忆而以为自己是真人,当被告知自己是仿生人时,她拒绝相信,流下了眼泪。如今,随着AI领域对话大模型技术的发展,“比人更像真人”的人工智能正从梦想化为现实。
在当下的AI产业下游,语音助手、聊天机器人、虚拟数字人……人工智能产品终端雨后春笋般出现,而在上游,大模型技术驱动的拟人型对话AI底座,决定着人与机器之间能否产生深入的互动与共情。
在国内,这一方向的技术领军者是聆心智能,他们“超拟人大模型”成为国内最早的推出的多模态对话大模型之一。2022年获得连星资本、图灵创投、智谱AI参与的天使轮融资,2022年,他们发布对标海外领军企业“Character AI”的人机对话产品“AI乌托邦”,还与洪恩智能合作,率先将拟人大模型大规模应用教育行业。
聆心智能有何独特优势?在他们看来,拟人型AI为何关键?对话大模型能否成为如今风头正劲的数字人大脑,如何服务于企业?亿邦动力邀请到聆心智能联合创始人郑叔亮,为我们解析拟人AI和对话大模型的独特价值。
聆心智能的创始人为清华大学计算机科学与技术系长聘教授黄民烈博士,早在2015年左右,他就开始研究情感对话技术,该技术能使AI理解情绪、表达共情,提供积极的情绪支持。2019年,他与研究团队首次提出情感对话生成模型,使得对话机器人具有表达喜怒哀乐的能力,论文受到了海内外知名媒体的报道,一年多被引用150多次,在对话研究领域开辟了新方向。
近年来AI情感对话技术的突破无法绕开大模型技术,2019年,在OpenAI发布GPT-2后,国内人工智能学界也开始聚焦大模型领域,当时国内最前沿大模型团队智源团队聚集了一批行业顶尖专家开发了大模型悟道1.0和悟道2.0,黄民烈在团队中负责带领“对话大模型”板块的研发。之后他还独立主导开发了国内最大的对话大模型——Eva对话大模型。
在2021年11月,黄民烈创立聆心智能,创立之初聆心智能就致力于自研“情感对话大模型”。研发团队包含数十位清华大学的研究人员,总研发人数为30人左右。郑叔亮介绍,他们如今已经打造出了100亿参数量,可控、可配、安全的超拟人大模型,可实现风格化和场景化的多轮对话系统。
而这与ChatGPT又有何区别?郑叔亮表示,聆心智能情感大模型的核心优势是在对话中让AI“更加拟人”。因此它不仅能完成任务,还能理解人的自然语言并且传达复杂感情。相比GPT3.5,聆心大模型在知识性方面表现力较低,但在闲聊和情感对话场景更优,另外在参数量上也进行了精简优化。
郑叔亮打了个比方,“当你向ChatGPT诉苦的时候,它会说‘作为一名人工智能,我明白你现在的状态,我可以给你XXX选择和XXX建议。’而情感支持的大模型会说,‘你的心情不好,到底发生什么事情了?有没有什么我能够帮你的?’它从一开始就存在内在角色或人设,天生就要帮助你去舒缓负面的心态。”
从技术的实现方式来说,聆心智能在预训练阶段就会为模型引入独特的数据和训练集,例如支持类似心理学三阶段助人理论的情绪支持策略,可以让模型进行具有感情的多轮上下文相关对话,持续有记忆对话的长度远超通用大模型。
除此之外,黄民烈从2019年就致力于将大模型从象牙塔中带向国内商业场景,其团队2019年与阿里小蜜合作时,在国内首次将情感对话技术解决外卖订餐场景的复杂查询的语义理解问题,以及用户情感检测和情感安抚问题。
聆心智能成立后也秉承了技术商业化的思路,在2022年,他们选择了心理健康作为第一个商业落地赛道,将自研大模型用于对话机器人并接入了国内知名心理医疗平台“好心情”,落地了国内首款人工智能心理陪伴数字人“心心”,使它可以实现和病人的开放域对话。
不过郑叔亮也表示,虽然聆心智能初期选择心理健康赛道主攻商业落地,但在深入应用之后发现医疗行业的门槛比想象得要高。他提到,产品除了设计开发,之后还要经历半年左右的临床测试时间,付出上千万级别的额外支出,交付周期变得难以接受。因此,2022年中期开始,聆心智能开始拓展业务领域,在教育、游戏、数字人等多个行业开展新的商业化落地尝试,并将“AI乌托邦”和“AI乌托邦Pro”两款产品分别向ToC和ToB市场投放测试。
在亿邦动力的一次试用中,“AI乌托邦”提供的AI角色在短短的二十分钟内根据用户的简单指示分别扮演了心理咨询师、文字游戏GM、以及虚拟女友。
在“哈利波特与密室”游戏GM角色对话中,我们在十几轮对话中就体验了一次不同于原作的魔法冒险,在和“心理咨询师”的对话中,我们感受到了不同于许多当下的大模型AI,十分亲和体贴用户心理的模拟心理咨询体验。在对话时限内,不仅在每个人的十余论对话中都始终保持了上下文的记忆,也全无出戏感。
“AI乌托邦”代表了最经典的AI人机对话功能,这种AI对话机器人的历史可以追溯到上个世纪,但在2023年,大模型AI加持下的对话机器人正在迅速具备商业化能力。在海外,此类产品中最成熟的是发布在2022年9月的Character.AI,它由谷歌LaMDA的前开发者开发,付费模式提供每月9.9元的高级版。在国内,小冰克隆了网红“半藏森林”并在6月公开并以订阅制付费,其首次在国内依靠AI“情感价值”贩卖增值服务,引起一时轰动。
“感情是人机对话中难度要求很高的一项能力”,郑叔亮说,虽然被外界看作Character.AI的对标产品,但聆心智能在AI乌托邦之中加载了独有情感对话系统,让AI在对话过程中理解人的情绪和情感,还可生成共情的回复。“目前我们并没做什么推广,但活跃用户的粘性很高,Top 20的角色每日人均对话轮数超过110轮,处于行业中最高的水准。”
郑叔亮告诉亿邦,一个较为简单的衡量对话AI情感能力的方法就是测试其有效对话轮数。从训练之初,通用大模型所被投喂的语料就将其塑造为一名AI,而之后扮演任何角色是一种“假装”(Pretend),这样做的问题是,AI虽然可以在对话中用提示词迅速理解自己的人设,但会在多轮对话之后就会“OOC”(跳出角色、出戏)。这既是由于上下文记忆力的限制,也是因为从预训练之初,大模型AI就是按照AI角色而非拟人去培养的。
聆心智能在训练其大模型时,从一开始就使用带有海量性格、人设标签的语料进行训练,这使得AI乌托邦等产品天然地能更好理解用户后期提供的人设要求,并具有更强的维持人设能力和多轮次对话的稳定性。
不过,郑叔亮表示,聆心智能并不在AI乌托邦这款产品中寻求商业化,而是更希望依靠它进一步收集数据、优化自身大模型,并在商业化路径上投石问路。他们在AI乌托邦中拓宽了赋予AI的人格类型,除了心理医生,还有明星,小说人物,律师等等,而未来,还将应用到更多场景,比如游戏、电影、动漫、数字人、社交、教育、家居、出行、生活等等领域。
实际上,郑叔亮透露,在年初至今的一些商业测试中,聆心智能已经和游戏公司合作测试游戏NPC,并且在小范围内与线下剧本杀、狼人杀展开合作,将AI导入情境NPC扮演之中,“获得许多硬核玩家的好评”。而在数字人领域,聆心智能还与数字栩生、慧夜科技等行业知名数字人公司建立了业务合作,为其提供具有更高情商的“数字人大脑”。
郑叔亮认为对话大模型拥有巨大的商业潜力,这基于简单的常识推论——不论技术任何进化,对话永远都是最基础、最直观、最自然的人机交互方式。无论是咨询、客服、导购等简单的交流场景,还是复杂的办公任务、最终都可以拆分为一条条对话命令,“一切应用场景最终都是对话”,而带有复杂感情的对话,还将进一步提升交流的维度。
“人在交流过程中,他不光可以说话,还可以传递语音、语调,还有小动作,小表情。”郑叔亮具体解释道,“比如我说‘我现在正在用手托着下巴做思考状’,这就是为对话附加了一个场景,而AI的回复可能是,‘我摸摸你的头’。”可以想像,这些复杂信息可以进一步用NLP方式驱动,并转化为终端智能硬件甚至未来的机器人的表情、动作等等。让科幻电影中真正带有感情的“智慧仿生人”才能实现的交互化为可能。
“今年我们希望能找到一个可以赚钱的领域,但不一定是由我们自己去赚钱,让合作伙伴能够赚到钱也OK。在这个领域,我们把我们的核心能力做扎实,夯实我们的技术壁垒。”谈到今年的商业化思路时,郑叔亮表示,聆心智能希望对话大模型能够赋能具体行业,他们希望从一个掌握大模型技术的公司变成可以提供行业解决方案或平台级解决方案的技术公司。
正如前文所说,由于对话场景在人机交互中无孔不入,通过对话大模型赋能企业数字化,为企业提供数字人员工是一个可行的商业化思路,但具体落实到如何运用AI和大模型上,无论是服务商还是企业,在现阶段都经验不足。通用大模型现阶段直接运用在企业中也面临着诸多水土不不服的问题,最常被提到的就是内容安全性与稳定性。
例如对于想要接入GPT的企业来说,假如你对于它生成的内容不满意,想要进行调整,目前OpenAI的GPT3.5和GPT4接口可以调整的项目不多,例如文本的‘温度’、长度等等。“而更关键的是,假如你对输出内容希望进行加工,只能通过‘后处理’的方式,这只能算是‘后期打补丁’的方法。”郑叔亮说。
郑叔亮指出,使用OpenAI的GPT接口的问题在于,无法使用自己的数据训练,无法控制训练过程,必须按照给定的格式匹配自己的数据,增加成本不说,也留下非常多的隐患。虽然目前OpenAI也额外提供进行精细化定制的服务,可以为企业提供预训练服务和独立的储存空间,但训练和推理服务的报价会高出通常常规接口的数倍,成本对于许多B端企业来说难以接受,更不要提还有数据出海的风险问题。
此外,通用大模型也无法满足企业的诸多专业需求,郑叔亮告诉亿邦,他们是在与洪恩教育展开合作之后才发现,企业会提出之前从技术角度预想不到的独特需求。“比如他们会在我们提供的对话能力基础上再提出一些安全性的考虑。比方和小孩子的交流内容中你不能鼓励早恋,不能鼓励逃课。当小孩说他不会过马路的时候,你不可以去教他如何去过马路,而必须第一时间帮助他联系他的家人。”许许多多类似于这样的交流场景,并不能简单通过“接一个ChatGPT的API,再用后处理过滤一下关键词”实现。
正因上述诸多原因,未来很可能“每个企业都需要一个私有大模型”,而在郑叔亮是如此描述这样一个过程的:先以一个规模相对较小的通用大模型作为底座,再在其上构建聆心智能的超拟人对话大模型,其语料和训练的数据会相较友商丰富很多,也可以植入企业专有数据进行训练。而具体到功能性的场景中,可以通过类似于ChatGPT提供的插件功能来丰富其能力。
“例如一位老板的私人数字人助理,他可以与老板完全以微信对话的形式完成工作交接,老板说他要出差时,数字人助理会用大模型能力自主完成安排行程、安排酒店的工作,需要订票时,他只需要调用携程商旅的API接口。而以前这些工作要由几位秘书来做。”郑叔亮描述。
“一些目前做系统集成或者解决方案的公司,他们并不太懂大模型,而我们希望自身的优势是:我们真正懂大模型,同时又对行业了解得更深。这也是我们现在不断寻找和增加行业合作伙伴的原因,通过行业数据、行业Knowhow的持续积累,聆心智能的超拟人大模型将天然地具有服务于各行业的能力。”