正值元宇宙热潮,虚拟数字人兴起
作为一个新兴领域,虚拟数字人已经引起市场和资本的高度关注,截至目前据不完全统计,全球范围已有500+虚拟数字人相关项目获得融资,融资总额超10亿美元,并且融资项目和总额正处于快速上升状态。以亚太地区最火热的韩国头像制作平台Zepeto为例,近期正在准备近2亿美元的融资,短短3年时间内就晋升独角兽行列。
Zepeto市场热度持续走高,做头像也能成为独角兽
Zepeto是全球最大的头像制作平台之⼀,自Zepeto推出后短短三个⽉的时间内,MAU增长高达5倍,在35个国家/地区的应用商店中免费软件类别中排名第⼀。在软银和顶级K-pop公司的⽀持下,该平台拥有Gucci、Ralph Lauren、Nike、Disney和MLB等众多全球领先企业作为其合作伙伴,目前已经交易了超过15亿个应用程序内项目,拥有超过2000万的MAU和2.5亿终身用户,是Metaverse和虚拟数字⼈市场的先驱之⼀。
据悉Zepeto正在进行上亿美元B轮融资,软银将以10亿美元估值投资1.5亿美元,Zepeto在完成此轮融资后将晋升独角兽行列。
虚拟偶像横空出世,一夜爆火震惊行业
Ayayi于今年5月20日在小红书发布第一条动态,宣告中国首个虚拟偶像诞生,第⼀条小红书发布当天获得224万阅读、9.3万喜欢、超过4千条评论,仅仅一夜时间获得4万粉丝,在⼀个月的时间就与国际⼤牌矫兰达成合作,Ayayi的走红速度令国内众多希望一夜成名的网红望尘莫及。
打造Ayayi的超现实虚拟数字⼈虚拟孵化公司燃麦科技也因此获得资本的关注,迅速于6月25日完成Pre-A轮数百万人民币的融资,持续打造更多虚拟数字人形象、扩大业务范围。
虚拟数字人仍处于发展初期,距离完全体存在距离
虚拟:存在于非物理世界中,实现难度视不同场景存在差异
- 以图片、视频、实时内容等形式存在于数字媒体或虚拟世界中,没有物理实体形象。
- 各个场景所需的技术和驱动方式存在差异,例如在对于图片形式的虚拟数字人要求较低,目前阶段实现难度低,但对于视频直播则需要极⾼要求,目前仍在发展阶段。
数字:数字技术是发展基础
- 虚拟数字人是多种技术的综合产物。
- 核心技术包括CG建模、真人驱动、深度学习、⼈⼯智能等。
- 近年来图像识别、语⾳识别、动态捕捉等技术的成熟推动了虚拟数字人发展。
人:高度拟人化,追求对真人的最大程度还原甚至超越
- 外表:虚拟数字人的外部形象,受到扫描建模、制作细节、渲染水平等技术影响。
- 行为:虚拟数字人的面部表情、肢体动作、语⾔表述等受到驱动技术、深度学习、数据训练等技术影响。
- 交互:虚拟数字人的交互能力受到语⾳识别、⾃然语⾳处理、人⼯智能等技术影响。
完全体的虚拟数字人具备三大主要特征,现阶段发展水平距离完全体仍有距离
虚拟数字人发展历史,由手绘转向技术
虚拟数字人已形成从构建到应用的完整产业链
产业链上游包括生成虚拟数字人的一系列硬件及软件提供商
目前虚拟数字人的制作成本高昂,在一定程度上制约了行业的大规模应用和发展,尤其是3D虚拟数字人,仅仅是制作单个虚拟数字人人物形象的成本高达百万人民币。
但在未来伴随建模、软件、设备各方面的日益成熟,将使虚拟数字人的制作门槛逐步降低,技术成熟度是推动虚拟数字人商业化的重要基础。
虚拟数字人的生成过程主要由建模、驱动、渲染三大步骤构成
建模 —> 驱动 —> 渲染
虚拟数字人形象制作过程中主要有建模、驱动和渲染三大过程,目前有两类制作技术,分别为真⼈驱动型和技术驱动型。两种制作技术在驱动过程中存在差异。从两种制作技术的可塑性角度而言,技术驱动型更符合未来市场的需求。
建模:相机阵列扫描重建替代结构光扫描重建成为人物建模主流方式
主流三维扫描建模有四种技术:
建模:多相机阵列加光场能获得更好建模效果,核心是算法
Light Stage
嘉兴超维VR3D
2019年初,Paul Debevec因其Light Stage扫描技术获得Oscar SciTech Award奖项。Light Stage是由美国南加州⼤学ICT Graphic Lab的Paul Debevec所领导开发的⼀个高保真的三维采集重建平台系统。该系统以⾼逼真度的3D人脸重建为主,并已经成功应用于40多部好莱坞电影渲染中。Light Stage本质上是一套光源、相机协同采集系统,能够对每个光源进行独立编程控制其亮度和颜色,在Light Stage内模拟出较为理想的各种光照环境。
对于光场建模而言,算法是核心,国内对于这⼀算法技术还没有成熟的解决方案。中国嘉兴超维的VR3D也使⽤了光度立体法作为扫描⼿段,但距离Light Stage级别的扫描还有⼀定距离。上海科技大学MARS实验室的穹顶光场(Light Field Stage)也在进行同样的尝试。
驱动:目前主流有三种驱动技术,各有优劣
光学动作捕捉
光学动作捕捉是通过对目标上的特定光点进行跟踪完成运动动作捕捉的技术。最常用是基于Marker(马克点)的光学动作捕捉,在运动物体关键部位粘贴能够反射红外光的马克点,并用相机捕捉马克点的运动轨迹。
成本高昂,捕捉精度高,对环境要求高
惯性动作捕捉
惯性动作捕捉主要是基于惯性测量单元IMU(Inertial Measurement Unit),在身体的重要节点佩戴集成加速度计,陀螺仪和磁力计等惯性测量单元,然后通过算法实现动作的捕捉。
价格相对较低,精度低,连续使用会产⽣累积误差,发生偏移
计算机视觉动作捕捉
计算机视觉动作捕捉基于计算机视觉原理,由多个高速相机通过不同角度对目标特征点进行监视和跟踪实现动作捕捉。通过高速率连续拍摄,从图像序列中获得运动轨迹。
精度高,受外界环境影响大,简单,易⽤,低价
总结
光学捕捉:捕捉精度最高但同时成本最高,需要在无遮挡和光线充足的环境下进行,对人物和光线进行捕捉
- 国外代表:Vicon,OptiTrack,Motion Analysis
- 国内代表:Nokov,uSens,青瞳视觉
惯性捕捉:扛遮挡能力最强,成本在三种技术方法中适中
- 国外代表:Xsens(荷兰)
- 国内代表:诺亦腾,幻境,国承万通
视觉捕捉:成本和对环境要求都较低,但是要求极高的算法开发能力
- 国外代表:Kinect,Leap Motion
产业链中游主要基于人工智能技术开展
虚拟数字人的产业链中游主要以人工智能技术为核心,人工智能提供计算机视觉、智能语音、自然语言处理等技术能力。
产业链中游参与的企业较多,多元化程度较高,大致由三类组成:
- 垂直类虚拟数字人厂商:魔珐科技(全栈),黑镜科技,中科深智,拟仁智能
- 互联网厂商:腾讯,百度,网易伏羲,火山引擎
- 专业AI厂商:追⼀科技,科⼤讯飞,商汤科技
整体而言,国内外在细分市场上的竞争各家仍处于试验产品可行性、打造标杆客户的阶段,距离商业化规模推广仍具有⼀段距离。
亚洲关注服务类虚拟数字人,尤其是文娱领域;在国外更多关注身份类虚拟数字人。
美国上中下游分界明显,⼀体化程度低,专精某⼀技术发展,对非核心技术采取外包合作;而中国有较多公司采用产业链一体化的形式进行虚拟数字人制作,部分公司表示在未来可能会像美国厂商⼀样将部分功能采用外包形式。
以人工智能为代表的技术将决定未来虚拟数字人的高度
现阶段商业化虚拟数字人仍处于初级阶段,以预写美工和程序为主
现阶段已实现商业化的虚拟数字人主要以虚拟偶像、虚拟客服、游戏/社交分身为主,以预写设置为主,对于人工智能的应用较少。
- 虚拟偶像Ayayi、Miquela、imma等均以图片形式为主,主要技术为建模及美工
- 虚拟美妆达人柳夜熙则从静态图片升级为动态视频,单个发布作品的制作周期相比图片更长,技术以传统动画影视制作技术
- 对于金融、医疗、销售等虚拟客服则开始有了人工智能的应用,可以接受外部输入并做出回应
但对于真正拥有并依据独立思想而采取行动的虚拟数字人,目前仍然处于研发阶段,距离商业化运营还存在一定距离。
中美虚拟数字人市场因技术发展阶段不同而存在差异
共同点
创始团队
- 以AI技术公司为代表,凭借技术进入虚拟数字人领域,大多专注于自动化生成。
- 另⼀类为传统CG或图形学公司,核心技术为其"美术"能力,通常更专注于后期技术。
竞争状况
- 中美两地市场均处于不成熟阶段,市场参与者众多,尚未形成绝对的龙头。
- 部分公司具有明显的先发优势,对于市场反应具备有更多的验证机会,从而获取更多的未来发展主导权。
差异点
技术层面
- 美国及欧洲国家更多采用高保真高还原+技术驱动的生成路线,在外表方面也呈现出更理想的效果,可以实现对真实人物的高度还原。同时在驱动方面,也可以实现真人动作的还原。
- 主要差异点来自于国内技术人才缺失和审美风格差异所导致。
商业模式
- 中国大多选择自主研发语音、文字和图像能力,而美国会将核心的NLP技术外包,采用微软、AWS、Google等对话系统,将业务能力进行聚焦。国内部分厂商表示在未来也将采用外包开发形式
- 美国会采用更标准化的生成流程,而国内以定制为主,根据用户需求进行特定设计。
- 美国在虚拟数字人的生成和训练方面界限较为明显,而中国以整体交付为主。
细分市场
- 国内更注重于服务型虚拟数字人的开发,并且专注于某一特定领域,这⼀选择有助于回避不同行业的技术差异。
- 美国基于生产技术优势,因此虚拟数字人的应用更广泛,并且有较多面向C端的产品。
虚拟数字人在应用层面共有两种类型
全球虚拟数字人市场规模预计在2028年发展成为千亿美元级别
虚拟数字人作为元宇宙重要基本元素之一,未来将以极高增速增长,将会发展成为一个巨大的市场
- 目前尚未有精确的对于虚拟数字⼈市场规模的统计,根据Verified Market Research的研究报告发现,2020年全球智能虚拟助理市场规模为50亿美元,预计到2028年将达到509亿美元,从2021年到2028年以30%的复合年增长率增长。 在量子位发布的硬科技深度产业报告中预测,2030年中国虚拟数字人整体市场规模可达2703亿,并根据两类虚拟数字人的市场进行了拆分。
- Verified Market Research报告中的虚拟助理更多指向服务型虚拟数字人,因此可以预计2028年全球虚拟数字人市场规模将为509亿美元的2倍,即形成一个千亿美元级别的市场规模。
下游应用空间大,虚拟数字人在各个领域获得广泛应用
目前市场中虚拟数字人形象和风格多样化程序高
市场有众多参与者,形象差异化程度大
目前虚拟数字人行业有众多公司共同参与,各公司提供的虚拟数字人形象差异化程度较大,市场由多种风格的虚拟数字人构成。
市场存量虚拟数字人可由两大维度构成,分别是卡通程度和真实程度。由内容公司通过自有功能提供或独立开发公司提供并通过API/SDK接⼊其他平台和应用程序。
- 从应用角度而言,目前卡通风格和低真实还原度风格的虚拟数字人应用更广泛,鉴于其技术难度较低且所占用带宽少,因此现阶段更容易收到青睐。
- 从技术开发角度而言,目前更多公司正在尝试研发高还原和高真实程度的虚拟数字人模型,在技术成熟且成本优化后,有望成为市场的主流风格。
通过API/SDK接入其他平台是市场主流趋势
Genies
Genies是一家位于美国的虚拟数字人技术公司,为人们和社区创建虚拟数字人形象,通过API/SDK接入其他应用程序。
- 总融资额:$52m+
- 上轮融资:2021年3月B轮
- 投资机构:Foundation Capital,L Catterton,Trinity Ventures,NetEase,Dapper Labs,ASAP Rocky
IMUV
IMVU是一个社交娱乐平台,可以使用3D虚拟形象认识新朋友、玩游戏、开发在线社区。
- 总融资额:$64m
- 上轮融资:2021年1⽉Venture Round $35m
- 投资机构:Foundation Capital,L Catterton,Trinity Ventures,NetEase,Dapper Labs,ASAP Rocky
Facemoji
Facemoji是一个虚拟数字人开发平台,其目标是开发一个一体化的虚拟角色系统。平台不仅提供创建功能,并构建了一个交易市场,让开发者能够创造全新的形象并实现盈利,同时也给予用户更多表达和探索的自由。Facemoji通用提供SDK外接。
- 总融资额:$4.5m
- 上轮融资:2021年10月种子轮 $3m
- 投资机构:Twitter,GGV Capital,General Catalyst,Play Ventures
Sensely
Sensely是一个基于情感驱动的虚拟数字人和对话平台,旨在帮助医疗服务或医疗保险类机构更好与他们的客户沟通,建立更具备互动性的沟通体验,可以通过Sensely的SDK将虚拟数字人接入自己的平台。
- 总融资额:$26.8m
- 上轮融资:2019年10月Venture Round $15m
- 投资机构:Silicon Valley Bank,SIG,Pegasus Tech Ventures,Chengwei Capital
Soul Machines — 智能虚拟数字人
Soul Machines是⼀家研发智能虚拟数字人的初创公司,成立于2016年,位于新西兰。Soul Machines利⽤HumanOS–acloud-based自动动画平台技术,允许极其逼真的CGI角色以非常人性化的方式向真人学习并与真人互动。对于Soul Machines研发的虚拟数字人而言,其专利"数字大脑"是核心,对神经科学、心理学和认知科学等进行深入研究,允许虚拟数字人实现思考、交谈、分析和互动。Soul Machines不仅提供虚拟数字人创作服务,并且还对外提供Digital DNA Studio以及HumanOS Platform平台。
- 总融资额:$65m
- 上轮融资:2020年1月B轮 $57.5m Led by Temasek
- 投资机构:Temasek Holdings、Horizon Ventures、ICONIQ Capital、Salesforce Ventures、Horizons Ventures
未来机会
-
关注虚拟数字人领域高科技、高智能、高垂度的技术初创公司,例如人工智能、深度学习、机器学习等。
-
从建模-驱动-渲染的虚拟数字人创造环节而言,渲染环节已经相对成熟,可以关注建模和驱动环节,尤其是可以实现快速商业化的光场建模及驱动技术。
-
IP策划/形象运营/场景对接/DNA studio,虚拟数字人在构建到应用过程中存在脱节,目前产业重点在上游和中游,缺少从构建到应用环节的过度,关注能充分融合两个环节的公司。