不知不觉间,接打快递、银行等电话时,遇到AI的情况越来越多了。
目前和这些AI沟通,还得讲究一个技巧:
要保持你一句我一句的标准节奏,不然难免变成“人工智障”。
比如话说一半卡壳停顿了,AI会以为你说完了,对着半句话给出莫名其妙的回复。
如果在一句话中间打断它,也很少有AI能反应得过来。
要是投诉时情绪比较激动,对着话筒一顿输出,AI可能只回复了第一句,甚至不听你的,跟你“抢话”。
谷歌在今年的I/O大会上终于提到这个问题,给出的初步解决方案演示还获得满场掌声。
不过,国内其实有人关注这个问题比谷歌更早,那就是拥有复杂场景的京东,早就在实际业务遇到类似的问题。
在京东集团副总裁、IEEE Fellow何晓冬博士看来,这既不属于语音识别问题,也不属于语义理解问题,学术研究中往往关注度不高。
只有在落地实践中,这样的问题才会暴露出来,进而有机会解决。
2018年,何晓冬离开工作了十余年的微软雷蒙德研究院,也是自然语言处理、语言与视觉多模态智能等领域的领军人物之一,选择回国加盟京东。
这其中也是有拥抱场景、离实践更近方面的考量。
在京东,何晓冬带领团队融合声学、语义、时间等多模态特征,开发了一系列人机交互场景的“话语权决策“(Turn taking)技术。
如今,这套技术在京东智能客服系统上每天有百万到千万级的咨询量,就相当于每天要做上千万次图灵测试,已经日趋成熟。
而像这样的问题,何晓冬加入京东以来遇到的还有不少。
在AI发展的上一个阶段首先解决了高频场景,但用户多了难免出现边缘案例(edge case)。
随着京东言犀在全国业务的推广,识别各地方言的需求开始凸显,遇到情绪有波动的客户也更多了。
极端情况下,偶尔会遇到用户咨询要买一整瓶安眠药,言语间带有轻生倾向。
后来京东做了一个生命通道项目,专门检测识别这样少见但重大的情况。检测到之后一方面可以在言语上安抚客户、通知物流先不发货,另一方面联系当地的警方或社区人员介入。
从技术上说,除了识别语音,解决这些问题还需要识别用户意图、感知用户情绪以及多轮对话管理。
对此,何晓冬进一步提出“对话的本质是推理与决策”,语言只是其中一种表现形式。
围棋在过去又叫“手谈”,代表这种博弈游戏就像是用手去交谈对话。如果反过来,对话也是一种推理与决策,你需要了解整个棋局,并能够完美执行。
在京东的智能客服领域,决策推理能力还体现在如果遇到退换货、或者其他问题,言犀可以结合对业务场景深度的理解,以及RPA(机器人流程自动化)能力,特别情况下还通过优惠券等多种方式来补偿客户,或遇到复杂问题自动转接给人工客服处理。
通过解决客户服务实践中遇到的种种问题,一套语音语义技术被打磨得更实用,也更以人为本。
情感识别上,有业界首个大规模商用的情感系统,能识别生气、失望、愤怒、焦虑等7种情绪。
方言识别上,专门开发口音适配模型和算法,结合语音识别和语义理解联合建模保证精确性,已能识别粤语、四川话等多地方言。
另外何晓冬认为,在业务实践中除了能打磨完善单个技术,还能促进多技术的融合。不仅可以提升了技术应用的稳定性,令其有更好的适应性。例如前端的一个指令,背后往往是一套多协同的算法在“并肩作战”。
如从商品文案生成的需求出发,语言模型结合领域知识图谱的AI算法已实现3000种品类的文案,总计“种草”30亿字。
同时,京东上有着5.8亿活跃用户、1000万个自营SKU和数十万商家,智能客服每天处理1000万次服务,每月产生200万小时脱敏通话数据。
再加上每年的618、双11的峰值负载考验,这一套智能客服技术在工程上也沉淀出了最佳实践。
现在技术和工程实践在京东内部已经跑通,能不能让它们去解决更多问题?
何晓冬认为,这样一套端到端的能力可以开放出来给更多第三方使用。
只不过这些技术在内部使用时是高度定制化的,开放出来就需要做解耦出来,在更广泛的场景做到复用。
在刚刚举办的京东云峰会上,何晓冬发布了全新升级的人工智能应用平台言犀2.0。
这一次,言犀2.0特别强调的关键词是应用平台,而不是一个开发平台。
这是因为AI能力要服务于生产制造、仓储物流、中小卖家等供应链上下游离技术更远的企业时,就不能只是做个跑分高的算法模型、提供个API接口了事。
而是需要把技术和最佳实践一起沉淀到产品里,端到端的交付。
京东零售业务经过19年发展,已经构建起一套完整的供应链基础设施,覆盖商品的制造、流通、消费和服务的全周期。
进一步,可以把零售行业的价值链分为创意、设计、研发、制造、定价、营销、交易、仓储、配送、售后等十个环节,这便京东从14年开始提的“十节甘蔗”理论。
当前,在数字化升级、智能化转型的大趋势下,京东又提出“数智供应链”。
也就是将京东在供应链上沉淀的技术能力解放出来,服务更多实体产业。
这里面既是京东在技术服务上的差异化竞争优势,也是不得不做,这是因为——
在AI落地早期阶段的特点是“单点应用”,如简单的问答、人脸识别等。
下一步则是在某些高频场景的大规模、全链条应用,如零售、金融等场景。
再往后就进入了产业AI的“深水区”,不可避免要遇到低频、长尾场景,新的困难也随之出现。
这些场景的数据样本少、数据分布不均,对技术来说研发成本更高,同时定制化程度高、难以复制。
要解决这些困难,过去的单点突破则走不通了,那么,接下来又该怎么走?
此前从京东内部的经验可以看出,技术必须要在真实场景下实践才能暴露出问题,多种技术之间也是在真实场景下实践才能更好的融合。
在供应链视角下,这里的多技术已不仅指AI内部的各个分支,还要算上云计算、大数据、物联网、5G、区块链等更广义的技术。
同时,供应链所有环节都需要数智化转型才能最大化效率,带来上下游之间的协同效应。
由此京东云提出,产业数字化的下一站便是数智供应链。
而京东作为一家既懂技术又懂供应链的公司,在这之中要扮演的是用技术连接起产业互联网和消费互联网,同时在商品的制造、流通、消费和服务环节推进数智化转型。
而京东本身就是一个复杂、严苛的“场景”,对成本、体验、效率有着极致的要求。
向这些环节提供智能服务创造价值的同时,又能通过反馈进一步迭代技术,最终走入正向循环。
总的来说,就是从京东复杂业务场景深度解耦出来的AI能力,历经多年的考验和验证,平台技术能力可用性强,复用度高,迁移成本低,可以不断地复制到其他行业。
这样就解决了AI规模化落地的问题,面对一些低频、长尾的场景,也更容易迁移。
在今年的京东云峰会上,基于言犀2.0应用平台还发布了政务、金融、数字人等技术产品。
政务方面的产品是“京东政务大脑”,以人机交互能力为核心,结合多种技术提供了政务咨询一网通、疫情防控与排查、智慧养老等一系列解决方案,服务市政民生。
金融方面则是结合对话、决策能力与金融领域专业知识,推出金融全链路智能营服销一体化解决方案。
最后还有言犀多模态数字人平台,与市面上的数字人相比,京东数字人更注重产业服务,同时强调AI驱动的多模态交互能力,目前已走进直播带货、银行业务办理、政务服务等多个场景。
为什么首先选择这几个领域?
何晓冬也给出了他对数智供应链应如何推进上的思考。
从AI技术公司,到泛互联网行业,再到更传统的行业,离技术越远则数智化的需求和机会越大,但同时推进数智化的难度也更大。
这其中,金融、政务这些行业数字化基础设施已初步建设完善,与大众关系又紧密。
先从这些领域入手去推进智能化,可以迅速打开局面,再一步步深入渗透进能源、制造业等更传统的行业。
选择做数字人平台也是类似的思路,数字人当下产业需求非常庞大,又是人机交互技术最佳的表现载体,可以一边创造价值,一边进一步检验和完善技术。