存在形式、形象特征、身份设定、人格设定
这里讨论广义数字虚拟人
核心技术:建模、驱动(动作生成)、渲染
##建模——静态形象
纯人工建模 - 成本高、产能低
1)运用电脑软件画设计稿,描绘建构出人物的三视图;2)根据设计图纸确定人物三维的图形,运用 MAYA、3DMax、Zbrush 等三维建模软件建立基本的三维模型;3)除了建模师,虚拟人的运营需要团队的协作,虚拟人制作的其他环节还涉及到贴图师、绑定师、动画师、道具师、三维场景设计师等。
借用采集设备建模 - 成本适中、应用广泛
(1)相机阵列扫描:使用上百台相机进行 360 度的环绕拍摄,构建三维模型,基于模型进行数据的处理,然后转化成可以编辑的格式,再去进行相关的贴图、绑定、动画等操作。相机矩阵输入方式的优点在于制作周期短、节省人力,可满足大多数虚拟人的建模需求,是当前虚拟人建模的主流方式;但缺点在于不能从底层模型去大幅度修改参数;
(2)结构光扫描:利用三维扫描仪对人体、外部环境等进行扫描,建立点云数据(point cloud data),扫描精度越高,得到的点云数据越多,制作出的模型就越精细。相较前一种的相机矩阵扫描,结构光扫描是一种比较经济的扫描方案;但缺点在于扫描时间长,难以满足运动类目标的重建需求。
AI建模 - 成本低、技术有待提高
依据的是算法与机器学习。机器能够自动生成虚拟数字人的前提是要获取足够多的数据,对大量的照片/视频进行分析,提取到人的各种数据与信息,然后去模拟出没有提取到的那部分数据,比如鼻子的高度,这不仅依靠算法公式,背后还要基于机器学习,建立在机器对大量人脸照片/视频学习的基础之上,样本越多,算法生成出来的模型就越精准。
(1)语音识别
(2)自然语言处理
(3)语音合成
(4)语音驱动面部动画
##驱动——动态形象
包括手动调节关键帧、预制动作、动作捕捉(简称动捕)、智能合成(文字/语音驱动)等
通过将捕捉采集的动作迁移至数字虚拟人是目前动作生成主要方式,核心技术是动作捕捉。
###动捕类型
光学式
惯性式
计算机视觉动捕
##渲染——显示
渲染技术,是指把模型在视点、光线、运动轨迹等因素作用下的视觉画面计算出来的过程。
主要由离线与实时渲染两种类型。
#交互式数字虚拟人分类——真人/计算机驱动
可通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。数字虚拟人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。
由于恐怖谷效应的存在,人类视觉对同类的形象、特别是对面部高度敏感,在似像非像的阶段,很容易跌入“恐怖谷”。因此虚拟人外观存在风格化+高保真两个发展路线,风格化的虚拟角色艺术创作空间较大,卡通形象做出夸张化的动作表情并不会吓到观众,过去漫画、影视等艺术形态均有过成熟的标准;而1:1接近真人的高保真技术难度相对更大。
#演进:数字虚拟人成为数字世界接口
虚拟人产业链主要包含基础层(建模/渲染引擎等基础软硬件)、平台层(动捕等软硬件系统、垂直平台、AI厂商)以及应用层,
基础层为数字虚拟人提供基础软硬件支撑,硬件包括显示设备、光学器件、传感器、芯片等,基础软件包括建模软件、渲染引擎。
平台层包括软硬件系统、生产技术服务平台、AI 能力平台等为数字虚拟人的制作及开发提供技术能力。