5分钟了解数字人背后的交互逻辑,90%以上的人都不懂!
时间: 2024-07-26

随着大模型的横空出世,数字人领域迎来前所未有的发展机遇。在大模型的加持下,作为为数不多能落地、被应用、且可以看得到效果的AI应用,数字人的热度越来越高。不管是杭州亚运会数字人火炬手,还是各种数字人员工入职政务大厅,数字人技术越来越受到市场的追捧。

数字人.jpeg

△  图片来源于网络,侵权私信立删


在这种背景下,还是有很多人对数字人的认知停留在一知半解的状态,今天这篇文章将从数字人形象、交互能力以及应用场景这些维度与大家分享。



数字人形象


数字人是运用数字技术创造出来的、与人类形象接近的数字化人物形象。目前市面上较为常见的数字人形象包括2D真人、2D卡通、3D卡通、3D写实、3D超写实这5个类型。

△  图为摩科数字人部分3D写实形象


2D真人:基于真人在专业录影棚录制的采集视频,经过专业的AI训练1:1复刻而成,其形象声音、肢体动作等堪比真人效果——目前主要应用于官网、小程序、APP、线下智能终端等渠道,担任数字人客服的角色。

2D卡通:通过 2D 建模生成,具有非常强的可塑性。如世界第一虚拟偶像日本梦幻歌姬“初音未来”便是2D卡通形象。——目前其实在运用层面上,不是很常见。

3D卡通/3D写实:通过高精度原画设计、高写实 3D 建模、高水准的虚拟人引擎导入、高精度动作捕捉、最后经过精致的修帧渲染方能完成。——随着GPU以及算力的发展,目前高精度的3D数字人运用在线下智能终端上,作为数字人员工,为客户提供数智化服务。

3D超写实:超写实是指人物外观仿真度高,栩栩如生,这种虚拟人需要面部面数在1万面以上,高精度经得起360度无死角的怼拍。面部材质不仅十分接近真实皮肤的质感,还可以根据相机的距离进行自动优化,皮肤、五官、头发、肢体几近真人。——目前3D超写实数字人更多的还是运用在独立IP打造,作为企业形象代言人,去承接视频宣传、海报宣传、跨界互动等。



交互能力


交互能力是AI数字人与用户进行沟通和对话的能力,它需要用自然语言处理、语音识别、图像识别、情感分析等技术,实现多模态的交互。以摩科数字人为例,用户与数字人对话时通过ASR识别用户提出的问题,然后问题被发送给数字人大脑(FAQ+大模型)获取相应的答案,再通过TTS技术将答案转换成音频,经由音频驱动数字人的唇部和面部,形成数字人说话视频,从而实现真人与数字人的对话。

△  图为数字人交互逻辑



应用场景


数字人在实际应用中往往要与客户自身的业务场景结合,通过数字人充当数字人员工的角色,代替真人提供问题解答、业务办理之类的服务,从而帮助客户实现降本增效,提高服务质量。

△  图片来源于网络,侵权私信立删


一般来说,数字人的服务对象主要以to G或to B大客户为主,可以应用于线上线下各种场景,如官网、小程序、APP以及线下智能终端等,部署在政务中心、党建、工会、银行、高校、企业展厅等公共服务类场所,并以立式屏、透明屏、智能盒、全息舱等形式落地。

△  图为摩科数字人终端产品系列



总结


目前,数字人员工的渗透率逐渐攀升,各行各业都在试图通过数字人来满足对内提效和对外服务的需求。相信在不久的将来,随着AIGC和数字人技术的不断发展,数字人员工将成为人类的伙伴,为各行各业插上翱翔于数字化未来的羽翼。