• 虚拟数字人简介


    虚拟人概览

    定义

    1. 虚拟:分场景
    2. 数字:技术手段
    3. 人:多重人类特征

    广义与狭义:交互

    存在形式、形象特征、身份设定、人格设定
    这里讨论广义数字虚拟人

    分类

    1. 按外观分
    2. 按技术分
    3. 按应用分

    发展历史

    1. 萌芽阶段
    2. 探索阶段
    3. 高速发展阶段
    4. 井喷式发展阶段

    虚拟人技术

    1. 《白皮书》通用框架:人物形象,语音生成,动画生成,音视频合成显示,交互
    2. 五横(用于数字人制作、交互)两纵(2D、3D数字人)
    3. 人物生成、人物表达(语音生成、动画生成)、合成显示、识别感知、分析决策

    核心技术:建模、驱动(动作生成)、渲染

    ##建模——静态形象

    1. 纯人工建模 - 成本高、产能低
      1)运用电脑软件画设计稿,描绘建构出人物的三视图;2)根据设计图纸确定人物三维的图形,运用 MAYA、3DMax、Zbrush 等三维建模软件建立基本的三维模型;3)除了建模师,虚拟人的运营需要团队的协作,虚拟人制作的其他环节还涉及到贴图师、绑定师、动画师、道具师、三维场景设计师等。

    2. 借用采集设备建模 - 成本适中、应用广泛

      (1)相机阵列扫描:使用上百台相机进行 360 度的环绕拍摄,构建三维模型,基于模型进行数据的处理,然后转化成可以编辑的格式,再去进行相关的贴图、绑定、动画等操作。相机矩阵输入方式的优点在于制作周期短、节省人力,可满足大多数虚拟人的建模需求,是当前虚拟人建模的主流方式;但缺点在于不能从底层模型去大幅度修改参数;
      (2)结构光扫描:利用三维扫描仪对人体、外部环境等进行扫描,建立点云数据(point cloud data),扫描精度越高,得到的点云数据越多,制作出的模型就越精细。相较前一种的相机矩阵扫描,结构光扫描是一种比较经济的扫描方案;但缺点在于扫描时间长,难以满足运动类目标的重建需求。

    3. AI建模 - 成本低、技术有待提高
      依据的是算法与机器学习。机器能够自动生成虚拟数字人的前提是要获取足够多的数据,对大量的照片/视频进行分析,提取到人的各种数据与信息,然后去模拟出没有提取到的那部分数据,比如鼻子的高度,这不仅依靠算法公式,背后还要基于机器学习,建立在机器对大量人脸照片/视频学习的基础之上,样本越多,算法生成出来的模型就越精准。

      (1)语音识别
      (2)自然语言处理
      (3)语音合成
      (4)语音驱动面部动画

    ##驱动——动态形象

    包括手动调节关键帧、预制动作、动作捕捉(简称动捕)、智能合成(文字/语音驱动)等

    核心技术:动捕

    通过将捕捉采集的动作迁移至数字虚拟人是目前动作生成主要方式,核心技术是动作捕捉。

    ###动捕类型
    光学式
    惯性式
    计算机视觉动捕

    ##渲染——显示
    渲染技术,是指把模型在视点、光线、运动轨迹等因素作用下的视觉画面计算出来的过程。
    主要由离线与实时渲染两种类型。

    #交互式数字虚拟人分类——真人/计算机驱动

    1. 真人驱动型数字虚拟人,以真人为核心,用户可以通过3D建模、动作捕捉技术、渲染等技术,在网络上形成真人的虚拟化身,在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助数字虚拟人完成大型直播、现场路演等互动性、碎片化活动。
    2. 计算机驱动型数字虚拟人,以深度学习技术为主,本质上还是算法,但会拥有一个定制化的虚拟外表。计算驱动的数字虚拟人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。

    计算机驱动-多模态技术和深度学习发展

    可通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。数字虚拟人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。

    真人驱动-成本逐渐降低,有消费级应用,技术突破重点在于动捕

    1. 在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动数字虚拟人。
    2. 由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助数字虚拟人完成大型直播、现场路演等互动性、碎片化活动。
    3. 近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。

    技术趋势-拟人化:基础是视觉层面的高保真+实时

    虚拟人外观风格选择的两极:高保真+风格化。

    由于恐怖谷效应的存在,人类视觉对同类的形象、特别是对面部高度敏感,在似像非像的阶段,很容易跌入“恐怖谷”。因此虚拟人外观存在风格化+高保真两个发展路线,风格化的虚拟角色艺术创作空间较大,卡通形象做出夸张化的动作表情并不会吓到观众,过去漫画、影视等艺术形态均有过成熟的标准;而1:1接近真人的高保真技术难度相对更大。

    高保真技术突破点

    1. CG建模/图像迁移技术影响外观的拟人程度。
    2. CV等深度学习模型影响驱动效果

    技术趋势—拟人化:“形似到神似”的重点为交互能力

    1. TTS、NLP、ASR
    2. 以对话为核心

    技术趋势-工具化:高效创作

    #演进:数字虚拟人成为数字世界接口

    虚拟偶像

    1. 同人创作+要素抓取
    2. 虚拟网红,直播带货
    3. 虚拟歌姬
    4. 虚拟主播

    虚拟分身

    1. 游戏
    2. 社交
    3. 影视替身

    虚拟助手

    1. 虚拟主持人/新闻播报
    2. 虚拟客服
    3. 导航导览

    多模态助手

    1. 医疗健身顾问
    2. 个性化交互AI助手
    3. 感情陪伴

    产业链

    虚拟人产业链主要包含基础层(建模/渲染引擎等基础软硬件)、平台层(动捕等软硬件系统、垂直平台、AI厂商)以及应用层,

    基础层:海外公司形成较深的技术壁垒

    基础层为数字虚拟人提供基础软硬件支撑,硬件包括显示设备、光学器件、传感器、芯片等,基础软件包括建模软件、渲染引擎。

    平台层:建模渲染

    平台层包括软硬件系统、生产技术服务平台、AI 能力平台等为数字虚拟人的制作及开发提供技术能力。

    头部厂商——腾讯:素材+技术

    头部厂商——阿里:电商应用+技术

    头部厂商——网易:解决方案+捏脸技术(游戏领域)

    头部厂商——百度:平台+渲染方案

    头部厂商——B站:产业链+平台

    头部厂商——字节和快手:虚拟主播

    头部厂商——谷歌:底层技术+动捕系统+设备

    头部厂商——微软:产业链+AU

    头部厂商——Meta:虚拟现实

    头部厂商——英伟达:服务架构

    头部厂商——英特尔:芯片技术+体育领域

    参考资料

  • 相关阅读:
    计算机竞赛 题目:基于深度学习的中文汉字识别 - 深度学习 卷积神经网络 机器视觉 OCR
    Java常见面试题1-10
    Himall商城图形码帮助类二维码中生成图片(1)
    ElasticStack中的filebeat
    WAF简介
    React 的入门介绍
    wps/word 如何让表格的标题和表格名称文本(表1-1 xxx)跨页显示(已解决)
    Python之numpy数组篇(上)
    Docker 配置国内镜像加速器
    【高项】- 进度管理论文
  • 原文地址:https://blog.csdn.net/u012328476/article/details/126879264