5分钟掌握企业数字化未来新趋势——交互型数字人!告别知识盲区!
时间: 2024-07-05

2023年是人工智能领域的一个重要转折点,生成式AI的突然出现赋予了AI技术前所未有的创造力,引领世界正式步入AI 2.0时代。在这一技术革新浪潮的推动下,作为AI技术的重要应用场景,数字人产业也迎来了巨大的发展契机。


△ 图片来源于网络,侵权私信立删


近年来,越来越多的政企部门开始选择将交互型数字人作为数字化转型的关键,那交互数字人到底是什么?其背后工作的原理是什么?一篇文章带你走进交互型数字人的世界。


什么是交互型数字人


交互型数字人,顾名思义就是能与人类进行实时交互的数字人,这类交互往往会与客户自身的业务场景结合在一起,用数字人充当“数字员工”的角色,代替真人提供问题解答、业务办理之类的服务,从而帮助客户实现降本增效,提高服务质量。比如,摩科数字人为北理工打造的AI党建助手——党小慧,便是一种比较常见的党建数字员工。高校师生可以通过与数字人“党小慧”互动交流,学习党史知识,查看最新政策以及党务公告......


△ 图为党建数字人“党小慧”效果图


交互型数字人工作原理


交互数字人的主要原理是先通过照片、视频或者3D建模生成数字人,对话时通过ASR识别用户输入的问题,然后问题被发送给数字人大脑(知识库或大模型)获取答案,再通过TTS技术将答案转换成音频,最终通过音频驱动数字人的唇部和面部,形成数字人说话视频,从而实现真人与数字人的交互对话。


△ 图片来源于网络,侵权私信立删


在制作数字人形象时,可以通过定制一些常用的动作,比如打招呼、比心、鞠躬等,将动作与数字人说话内容做好关联,这样数字人说话的时候就会触发这些动作,使数字人看上去更接近真人。


交互型数字人应用场景


交互型数字人适配于线上线下各种场景,如官网、小程序、APP以及线下智能终端等。他的服务对象是to G / to B的大客户,可部署在政务中心、党建、工会、银行、高校、企业展厅等公共服务类场所,并以立式屏、透明屏、智能盒、全息舱等形式落地。


△ 图为摩科数字人部分产品


目前,数字人员工的渗透率逐渐攀升,各行各业都在试图通过数字人来满足对内提效和对外服务的需求


交互型数字人存在问题


线下实际使用场景中,数字人交互效果会受到以下因素的影响:

1、网络环境不稳定影响交互体验的问题。

数字人交互需要稳定的网络环境,交互所依赖的ASR、TTS目前大多依赖调用公有云服务的方式实现,这就要求网络环境的优质,否则可能会造成识别准确度下降、甚至无法识别的情况,以及语音合成效果的下降和数字人交互的卡顿、延迟。网络问题的解决方法很多,比如插入USB无线网卡等,都能够在一定程度上避免网络不稳定的出现。


2、非理想环境下语音识别准确率的问题,尤其是开放、嘈杂环境下的语音识别准确率。

针对这个问题,多数数字人企业通常会在收音模块上下功夫。比如摩科数字人就自研了收音模块。而且,为了减轻公共场景下的噪音干扰,摩科数字人还采用了三种语音识别方式,增加外接麦克风来进一步提高嘈杂环境下语音识别的准确率。


3、回复内容的精准性以及大模型参与进来后回复的不恰当内容的责任边界划分的问题。

传统的NLP只能进行封闭域对话,被很多客户调侃为人工智障。像摩科数字人这样的数字人企业,则通过采用FAQ+大模型的方式来保证回复内容的准确率。FAQ可以固化一些问题,让回答不跑偏、不出错。大模型则可以提高非业务问题的回复效率,保证数字人的智能化水平。


目前,尽管交互型数字人还处于行业早期,实际应用还没大范围普及,但随着大模型技术的不断发展,我们相信这些问题会不断改善,交互型数字人也会真正走进我们的生活,为行业赋能,成为数字化未来的新趋势。